Size: a a a

2020 January 22

A

Andrii in Scrapy
пока что спасибо
источник

AR

Andrey Rahmatullin in Scrapy
for sect in doc.xpath('//sect'): и поехали
источник

A

Andrii in Scrapy
иду читать
источник

AR

Andrey Rahmatullin in Scrapy
а xml ты кодом сделал или что-то готовое взял?
источник

A

Andrii in Scrapy
пересохранил ПДФ через адобе акробат ДЦ
источник

A

Andrii in Scrapy
просто кодом там ужас
источник

R

Roma in Scrapy
Адоб акробат будет лучшее решение для ПДФ, там же можно и сразу распознать текст
источник

A

Andrii in Scrapy
Roma
Адоб акробат будет лучшее решение для ПДФ, там же можно и сразу распознать текст
ПДФ уже как текст, но очень сложно определить где заголовок, где автор, а где текст :(
источник

A

Andrii in Scrapy
а так даже очень толково пересохранило в XML, структура очень приятна
источник

R

Roma in Scrapy
Ну да, ничего умнее чем у них, сложно найти для работы с пдф
источник

i

ildar in Scrapy
Xml кстати через скрапи очень удобно парсить, даже меньше кода придется писать, правда если с ним до этого не работал то сложновато будет
источник

Y

Yurii in Scrapy
ildar
Xml кстати через скрапи очень удобно парсить, даже меньше кода придется писать, правда если с ним до этого не работал то сложновато будет
В чем удобство?
источник

Y

Yurii in Scrapy
А то примеры что видел парсят через одно место и скрапи никак не помогает.
источник

МС

Михаил Синегубов in Scrapy
нормальный xml просто удобно пасрить 😂
а через чего....
в питоне же можно гулять по xml нодам без xpath? иногда такое даже удобнее (правда не часто)
источник

AR

Andrey Rahmatullin in Scrapy
ну да, lxml.etree умеет так
источник

i

ildar in Scrapy
Yurii
А то примеры что видел парсят через одно место и скрапи никак не помогает.
ну как, через scrapy XMLFeedSpider тебе не надо париться как-то с открытием его, или выделением item'ов, более того - он даже сам создает цикл и бегает по тому itertag, который ты указываешь, к примеру для yandex market xml это будет  'offer', там структура поле offers и  в нем куча offer.
Если тебе надо какую-то штуку из другого места вытащить, то можно использовать adapt_response ( к примеру категории из того же yandex market xml)
Ну и все - вот у тебя 4 строчки и дальше ты уже xpath/css вытягиваешь айтемсы
источник

Y

Yurii in Scrapy
ildar
ну как, через scrapy XMLFeedSpider тебе не надо париться как-то с открытием его, или выделением item'ов, более того - он даже сам создает цикл и бегает по тому itertag, который ты указываешь, к примеру для yandex market xml это будет  'offer', там структура поле offers и  в нем куча offer.
Если тебе надо какую-то штуку из другого места вытащить, то можно использовать adapt_response ( к примеру категории из того же yandex market xml)
Ну и все - вот у тебя 4 строчки и дальше ты уже xpath/css вытягиваешь айтемсы
Пример есть?
источник

AR

Andrey Rahmatullin in Scrapy
источник

i

ildar in Scrapy
источник

Y

Yurii in Scrapy
Почему же советуют совсем иное обычно
источник