Size: a a a

2020 January 22

R

Roma in Scrapy
А я правильно понимаю - что если заказываешь (на фрилансе) распарсить сайт  с pdf - то это значит что будет распаршен только сайт - сам pdf - никто распарсивать не будет? или это уже за доп плату?
источник

АП

Агент Печенька in Scrapy
Как в тз напишешь так и будет.
"мне нужны эти файлы" или "мне нужен этот текст в текстовом отображении"
источник

R

Roma in Scrapy
)) Ок - спасиб....Просто сам PDF парсить - это еще та боль
источник

l

linuxoid in Scrapy
Roma
)) Ок - спасиб....Просто сам PDF парсить - это еще та боль
Так если табличек нету, и нужно только текст, то можно распозновалке скормить
источник

R

Roma in Scrapy
Да я вообще спросил - как во фрилансе поступают ибо написать как распарсить сайт и PDF - две большие разницы...Так то много есть разных путей как с PDF работать - но будет боль рано или поздно - как и в любом парсинге
источник

i

ildar in Scrapy
От пдф еще зависит, там вообще картинки всунуты могут быть, и тогда еще ocr нужен, а это не всегда легко и просто. Имхо, самый мерзотный формат. Там времени можно угрохать как на три парсера с сайтов
источник

o

oneonwar in Scrapy
Кто нибудь парсил гугл-панормы?
источник

o

oneonwar in Scrapy
ну или яндекс
источник

A

Andrii in Scrapy
тепер буду по теме)
источник

A

Andrii in Scrapy
Ще один вопрос. Сделал наконец из пдф норм XML, тепер как лучше отскряпать: тег <H5> идет как нумерация, первий <p> ето тема, второй <p> университет, а все другие <p> ето текст. Все ето в теге <sect> и таких сект 200шт. И в результате все ето надо пихнуть в ексель
источник

A

Andrii in Scrapy
источник

AR

Andrey Rahmatullin in Scrapy
а в чём вопрос?
источник

AR

Andrey Rahmatullin in Scrapy
как xpath написать, какие инструменты использовать или что?
источник

AR

Andrey Rahmatullin in Scrapy
описанная структура нормально обработается программно
источник

A

Andrii in Scrapy
Andrey Rahmatullin
как xpath написать, какие инструменты использовать или что?
наверное какой инструмент
источник

A

Andrii in Scrapy
и если можно ссилку на примери
источник

AR

Andrey Rahmatullin in Scrapy
lxml.etree
источник

AR

Andrey Rahmatullin in Scrapy
сделать цикл по sect и там дальше уже даже без xpath можно, просто через детей
источник

AR

Andrey Rahmatullin in Scrapy
Excel писать - xlwt
источник

AR

Andrey Rahmatullin in Scrapy
источник