Телеграмм чат группы scrapy

Например мне нужно собрать характеристики товара:

item['Характеристики'] = response.xpath('//table[@class="table ware-table"]//tr').getall()
item['Характеристики'] = '\n'.join(item['Характеристики'])

И мне нужно чтобы они выглядели вот так в итоге в CSV
Характеристики|Бренд|Creo Ceramique
Характеристики|Код|00057546
Характеристики|Высота, см|84,5

Т.е. В данном случае я бы хотел сделать замены:
^ на Характеристики|
</td>.*?<td.*?> на |

источник

11:30пожаловаться #7

ПА

Павел Асеев... in Scrapy

https://santehcentr.com/catalog/sanfayans-toulon/detail/toulon-rakovina-s-pedestalom-600-480-845/

источник

11:31пожаловаться #8

ПА

Павел Асеев... in Scrapy

Я вижу только вариант c re.sub

источник

11:31пожаловаться #9

AR

Andrey Rahmatullin in Scrapy

я б циклом сделал и не парился

источник

11:31пожаловаться #10

К

Кирилл in Scrapy

Павел Асеев

Например мне нужно собрать характеристики товара:

item['Характеристики'] = response.xpath('//table[@class="table ware-table"]//tr').getall()
item['Характеристики'] = '\n'.join(item['Характеристики'])

И мне нужно чтобы они выглядели вот так в итоге в CSV
Характеристики|Бренд|Creo Ceramique
Характеристики|Код|00057546
Характеристики|Высота, см|84,5

Т.е. В данном случае я бы хотел сделать замены:
^ на Характеристики|
</td>.*?<td.*?> на |

Как насчет просто взять селекторами значения td?

источник

11:32пожаловаться #11

К

Кирилл in Scrapy

зачем что-то заменять

источник

11:33пожаловаться #12

ПА

Павел Асеев... in Scrapy

Можно ) Да хз, просто так привык в работе с программой парсером. А в программировании всё по другому ) Вот переучиваюсь )

источник

11:34пожаловаться #13

ПА

Павел Асеев... in Scrapy

Спасибо.

источник

11:34пожаловаться #14

i

i in Scrapy

Ты по-сути делаешь работу за парсеры и селекторы.
1. рекомендую всегда использовать css-селекторы, если уже с ними не получается, тогда xpath
2. посмотри еще на либу html_text
3. ну и да, ты как-то сильно уровень выше взял, и зачем-то его еще сразу присвоил в item['Характеристики'] вместо того, чтобы их нормально взять циклом, из-за этого куча геморроя со всякими '\n'.join и заменами с регулярками.

источник

11:44пожаловаться #15

i

i in Scrapy

Ну например:
scrapy shell https://santehcentr.com/catalog/sanfayans-toulon/detail/toulon-rakovina-s-pedestalom-600-480-845/

[[x.css('td::text')[0].get(), html_text.extract_text(x.css('td')[1].get())] for x in response.css('.table.ware-table>tbody>tr')]

источник

11:45пожаловаться #16

i

i in Scrapy

и ты уже получишь https://i.imgur.com/aUAlJg3.png

источник

11:45пожаловаться #17

ПА

Павел Асеев... in Scrapy

i

Ты по-сути делаешь работу за парсеры и селекторы.
1. рекомендую всегда использовать css-селекторы, если уже с ними не получается, тогда xpath
2. посмотри еще на либу html_text
3. ну и да, ты как-то сильно уровень выше взял, и зачем-то его еще сразу присвоил в item['Характеристики'] вместо того, чтобы их нормально взять циклом, из-за этого куча геморроя со всякими '\n'.join и заменами с регулярками.

Это немного проясняет ) Спасибо большое!)

источник

11:51пожаловаться #18

i

i in Scrapy

(хотя лично я не люблю оперировать по индексам, т.к. редко таблицы бывают реально "прямоугольные", часто там сбоку еще какие-нибудь поля, в одном месте по 5 характеристик, в другом по 10, а сбоку еще блямба торчит)

источник

11:51пожаловаться #19

VR

Vadim Ryzhkov in Scrapy

Здравствуйте, мне посоветовали задать вопрос в этой группе

Вопрос по селениуму:
Как можно использовать https прокси с аутентификацией? (хром)

источник

15:43пожаловаться #20