Size: a a a

2019 December 18

AR

Andrey Rahmatullin in Scrapy
🤷‍♂️
источник

МС

Михаил Синегубов in Scrapy
BOT FACTORY
Делов на пару часов а тут три дня этот костыль и говорит что собирает по 100 продуктов в минуту на 1000 проксях
1. кривой сайт, который тупо не держит нагрузку
2. защина от парсинга, при больших объемах запросов тупо затормаживаются страницы
3. необоснованное использование силениумов/шмилениумов, ибо "ой ой ой, дергаю страничку, а на ней ничего нет, это супер-пупер защита". Я пока встречал, буквально, несколько сайтов, которые без имитации браузера дороже парсить
4. кривой код
источник

МС

Михаил Синегубов in Scrapy
BOT FACTORY
скрапи как понимаю кривая штука
знаешь, за все то время, что вообще работаю/живу я понял одно. Нет кривого кода, софта, .... (нужное подставить), есть только руки из жопы
источник

МС

Михаил Синегубов in Scrapy
у меня тот же скрапи, на некоторых сайтах споконо делает 1000-3000 запросов в мин, и ничего
источник

o

oneonwar in Scrapy
Михаил Синегубов
1. кривой сайт, который тупо не держит нагрузку
2. защина от парсинга, при больших объемах запросов тупо затормаживаются страницы
3. необоснованное использование силениумов/шмилениумов, ибо "ой ой ой, дергаю страничку, а на ней ничего нет, это супер-пупер защита". Я пока встречал, буквально, несколько сайтов, которые без имитации браузера дороже парсить
4. кривой код
А Гугл карты без селена?
источник

AR

Andrey Rahmatullin in Scrapy
пусть клиент апи купит, оно недорогое
источник

o

oneonwar in Scrapy
Нет я же для себя делаю
источник

o

oneonwar in Scrapy
Типа Там фор саенс и вот это вот все
источник

EB

Elisei Badanin in Scrapy
Да нет, все он правильно сказал, скрапи кривой, правильнее писать пауков на селениуме…
источник

AR

Andrey Rahmatullin in Scrapy
расходимся
источник

o

oneonwar in Scrapy
Я просто не зарабатываю на этом поэтому мне не надо валить сервера 5к запросами в секунду поэтому я как то вот сразу подсел на селен и мне нравится то что в нем ты не увидишь каптчи и можешь парсить с одного адреса и тебя никто не забанит
Не быстро конечно но и наука у нас тоже никуда не торопится
источник

М

Мак in Scrapy
😂
источник

o

oneonwar in Scrapy
Для университетских задач хватает
источник

М

Мак in Scrapy
и тут холиваров дождались
источник

AR

Andrey Rahmatullin in Scrapy
"можешь парсить с одного адреса и тебя никто не забанит" это такая опасная идея
источник

B

BOT FACTORY in Scrapy
я на митме скрапил gmaps, брал json из файлов подкачки
источник

AR

Andrey Rahmatullin in Scrapy
я собсна видел сайт, который на запрос этак пятый показывает капчу даже лично мне в моём обычном браузере
источник

o

oneonwar in Scrapy
BOT FACTORY
я на митме скрапил gmaps, брал json из файлов подкачки
О_о
источник

МС

Михаил Синегубов in Scrapy
oneonwar
А Гугл карты без селена?
а кто говорил что гугля не входит в кагорту "нескольких сайтов" ? 😄
источник

AR

Andrey Rahmatullin in Scrapy
не говоря о гуглсёрче с телефона
источник