Size: a a a

2020 January 14

E

Evgen in Scrapy
Константин Лебедев
Ищу обход cloudflare ddos protection для парса на питоне. Перепробовал все что есть на гите. Рабочим оказался только один вариант cloudscrape, но он постоянно выбивает капчу что очень много тратится время на расшифровку и затратно получается. Вариант с селениумом это самый край к нему не хочу прибегать. Поэтому есть ли какие то альтернативы и кто то сталкивался с такой задачей, как решали?
Splash норм если cf без рекаптчи
источник

iz

izzz zzi in Scrapy
без записи в бд
INFO: Crawled 1402 pages (at 1402 pages/min), scraped 1333 items (at 1333 items/min)
с записью в бд ±300 , как повысить скорость?)
источник

К

Кирилл in Scrapy
Константин Лебедев
Ищу обход cloudflare ddos protection для парса на питоне. Перепробовал все что есть на гите. Рабочим оказался только один вариант cloudscrape, но он постоянно выбивает капчу что очень много тратится время на расшифровку и затратно получается. Вариант с селениумом это самый край к нему не хочу прибегать. Поэтому есть ли какие то альтернативы и кто то сталкивался с такой задачей, как решали?
Ты никак от капчи не отвертишься, разные варианты только уменьшают количество капч, но их нужно решать
источник

E

Evgen in Scrapy
У стандартного cf js челенджа минимум две модификации: простая может обходиться через cfscrape или чо нить типа js2py. Но бывает что время от времени вываливается сложная. Плюс кто знает, этот скрипт может измениться в любой момент. Так что я рекомендую splash.
источник

КЛ

Константин Лебедев in Scrapy
Evgen
Splash норм если cf без рекаптчи
А есть ссылка?
источник

E

Evgen in Scrapy
На splash?
источник

КЛ

Константин Лебедев in Scrapy
Evgen
На splash?
Да
источник

К

Кирилл in Scrapy
izzz zzi
без записи в бд
INFO: Crawled 1402 pages (at 1402 pages/min), scraped 1333 items (at 1333 items/min)
с записью в бд ±300 , как повысить скорость?)
Батч инсерт, если упирается в запись в бд
источник

E

Evgen in Scrapy
источник

E

Evgen in Scrapy
источник

E

Evgen in Scrapy
Если cf с рекаптчей то пробуйте другие айпишники (регион)
источник

E

Evgen in Scrapy
Или разгадывайте)
источник

iz

izzz zzi in Scrapy
Кирилл
Батч инсерт, если упирается в запись в бд
так пайп по 1 айтему берет же
источник

E

Evgen in Scrapy
Но тока там куки будут скорее всего валидные тока на тот айпи с которого разгадали, так что надо биндить куки к ip и бла бла бла
источник

К

Кирилл in Scrapy
izzz zzi
так пайп по 1 айтему берет же
Сделай буфер в пайпе, итемов на 20, когда накапливаются, делаешь запись
источник

КЛ

Константин Лебедев in Scrapy
Я с браузера захожу и капчи ни какой нет, так что капча=роботность, значит чего то не хватает
источник

E

Evgen in Scrapy
Ну во первых удалите все куки в браузере чтоб проверить
источник

К

Кирилл in Scrapy
Константин Лебедев
Я с браузера захожу и капчи ни какой нет, так что капча=роботность, значит чего то не хватает
Ты если много запрашивать будешь, то и в браузере будут капчи
источник

E

Evgen in Scrapy
Мож им ваш ip уже не так сильно нравится
источник

КЛ

Константин Лебедев in Scrapy
Evgen
Ну во первых удалите все куки в браузере чтоб проверить
Удалял и если что весь траф через тор
источник