Size: a a a

2020 January 13

AR

Andrey Rahmatullin in Scrapy
ну, на самом деле item
источник

ЕJ

Евгений Jen in Scrapy
Мак
Похоже тут начать надо с основ xpath и css, а не с пауков...
чесно, лучше с дебага - 95% проблем решит
источник

ЕJ

Евгений Jen in Scrapy
+ в пичарме есть интерактивный режим, поставил брекпоинт и тут же пишеш код - смотриш что происходит, не надо перезапускать
источник

AR

Andrey Rahmatullin in Scrapy
я просто пишу response.xpath в evaluate
источник

R

Roma in Scrapy
Евгений Jen
+ в пичарме есть интерактивный режим, поставил брекпоинт и тут же пишеш код - смотриш что происходит, не надо перезапускать
++ Похоже тут надо начать с дебага...Согласен на все 100% - нефига не знаю xpath - все с помощью  дебага решаю
источник

ЕJ

Евгений Jen in Scrapy
а что за evaluate ?
источник

AR

Andrey Rahmatullin in Scrapy
окно в пичарме
источник

AR

Andrey Rahmatullin in Scrapy
ну, в любом дебаггере чего угодно, на самом деле
источник
2020 January 14

КЛ

Константин Лебедев in Scrapy
Ребят хэлпаните ищу уже не один день решение обхода js bypass от cloudflare
источник

B

Bulatbulat48 in Scrapy
Константин Лебедев
Ребят хэлпаните ищу уже не один день решение обхода js bypass от cloudflare
Посмотрите в истории чата, вроде уже пару раз обсуждали
источник

АП

Агент Печенька in Scrapy
Константин Лебедев
Ребят хэлпаните ищу уже не один день решение обхода js bypass от cloudflare
Ты ведь написал отличное сообщение, почему бы его сразу не форварднуть сюда?
источник

КЛ

Константин Лебедев in Scrapy
Агент Печенька
Ты ведь написал отличное сообщение, почему бы его сразу не форварднуть сюда?
Ок
источник

КЛ

Константин Лебедев in Scrapy
Ищу обход cloudflare ddos protection для парса на питоне. Перепробовал все что есть на гите. Рабочим оказался только один вариант cloudscrape, но он постоянно выбивает капчу что очень много тратится время на расшифровку и затратно получается. Вариант с селениумом это самый край к нему не хочу прибегать. Поэтому есть ли какие то альтернативы и кто то сталкивался с такой задачей, как решали?
источник

JW

John Wayne in Scrapy
подскажите, есть start_urls = [там 10 ссылок], результатом parse является словарь, для каждой ссылки он разной длинны, на выходе нужен csv файл, с именами столбцов.
если сохранять так, сохраняет с разными именами столбцов
https://paste.centos.org/view/8d2dbe48
источник

B

Bulatbulat48 in Scrapy
John Wayne
подскажите, есть start_urls = [там 10 ссылок], результатом parse является словарь, для каждой ссылки он разной длинны, на выходе нужен csv файл, с именами столбцов.
если сохранять так, сохраняет с разными именами столбцов
https://paste.centos.org/view/8d2dbe48
Feed export fields, посмотри в истории чата должно быть. В скрапи же есть дефолтный csv экспортёр, его нельзя заюзать?
источник

JW

John Wayne in Scrapy
Bulatbulat48
Feed export fields, посмотри в истории чата должно быть. В скрапи же есть дефолтный csv экспортёр, его нельзя заюзать?
при голом дефолте, у первого словаря длинна 4, у 2го 8, у 7го, 10, и не создаются столбцы больше 4х.т.е теряются данные. FEED_EXPORT_FIELDS не подходит, я беру имена столбцов и словаря, и они разной длинны, я не могу их прописать
источник

КЛ

Константин Лебедев in Scrapy
Bulatbulat48
Посмотрите в истории чата, вроде уже пару раз обсуждали
Обсуждали но решения так и нет
источник

JW

John Wayne in Scrapy
я бы датафрейм сделал, на основе списка словарей, всех запросов старт урлс, но как это сделать? где в пауке так прописать, чтобы в список записало результат парса всех, ссылок из старт урлс?
источник

B

Bulatbulat48 in Scrapy
John Wayne
я бы датафрейм сделал, на основе списка словарей, всех запросов старт урлс, но как это сделать? где в пауке так прописать, чтобы в список записало результат парса всех, ссылок из старт урлс?
Не уверен что правильно понял, но может ‘spider_closed?’
источник

К

Кирилл in Scrapy
John Wayne
при голом дефолте, у первого словаря длинна 4, у 2го 8, у 7го, 10, и не создаются столбцы больше 4х.т.е теряются данные. FEED_EXPORT_FIELDS не подходит, я беру имена столбцов и словаря, и они разной длинны, я не могу их прописать
Сделай максимальный размер, и там где меньше вставляй пустые значения
источник