Size: a a a

2020 September 12

A

Alex in Scrapy
это наверно параноя) а так да вроде работает
источник

К

Кирилл in Scrapy
Это к твом селекторам вопросы
источник

A

Andrii in Scrapy
Alex
чет у меня странно ведет себя паук, где то я натупил
правильно ли я построил логику работы паука?

def parse(self, response):
       links =
все линки на категории
       for page in links: -- захожу в каждую категорию
           yield scrapy.Request(page, callback = self.parse_page)

def parse_page(self, response):
 page_links =
получаю линки обьяв на странице
 for ads in page_links: - захожу в каждый линк
   yield scrapy.Request(ads, callback = self.parse_ads)

   link_next_page =
получаю ссылку на следующую страницу
   yield response.follow(link_next_page, self.parse_page) - передаю ссылку

def parse_ads(self, response): - собираю данные
 yield {
     'Phone': phone_number,
          }
Лучше комент писать через #
источник

A

Alex in Scrapy
Andrii
Лучше комент писать через #
Это я сюда так скинул)
источник

A

Andrii in Scrapy
И через `
источник

СТ

Семён Трояновский... in Scrapy
Alex
поставил принты
вываливает одинаковые линки
я не мастер скрапи, но подозреваю что там где-то как-то должен и логгинг нормальный настраиваться
источник

S

SoHard 🎄 in Scrapy
Семён Трояновский
я не мастер скрапи, но подозреваю что там где-то как-то должен и логгинг нормальный настраиваться
А ещё можно брейкпоинт поставить)
источник

A

Alex in Scrapy
Поставил, посмотрю что наковыряет)
источник

К

Кирилл in Scrapy
Andrii
Лучше комент писать через #
Это тоже самое что твои "ретушовки"
источник

S

Spirit💎 in Scrapy
Кирилл
Это тоже самое что твои "ретушовки"
😄
источник

A

Andrii in Scrapy
Кирилл
Это тоже самое что твои "ретушовки"
🙄
источник

AL

Alexey Lemeshevski in Scrapy
SoHard 🎄
я подкинул куки с браузера, ~450 запросов и капча
а разгадывать капчу (через сервисы) - чем не вариант? )
источник

AL

Alexey Lemeshevski in Scrapy
450 запросов... если быстро не надо, то на АйрСокс "общий прокси" (750р который) прокси меняет ip каждые 120 секунд ) ...но я про Distill Networks не знаю ничего, какие там нюансы )
источник

S

SoHard 🎄 in Scrapy
Alexey Lemeshevski
а разгадывать капчу (через сервисы) - чем не вариант? )
Там их капча, яхз разгадывают ли такие
источник

i

i in Scrapy
Alex
интересно)
реквесты такого типа, которые показывают телефон
каким образом их можно формировать, понятно что каждый раз они будут разные
https://www.olx.ua/ajax/misc/contact/phone/HrTYR/?pt=346f8df1e6c043ba222be42f49b46e8bbde2924c10cc84d52a6bbb84226a548ed5a8aa46f3b9295119bd72fa3798656c14e6f0d6835a09ec6cedecc3b2ba7c67
пару лет назад его парсил, там надо было передать что-то типа ключика и токена и тогда оно показывало телефон.
источник
2020 September 13

A

Alex in Scrapy
Доброго дня, коллеги!
Может, кто сталкивался с сайтом exist.ru? Проблема в том, что не удается сделать в среднем больше 50-ти запросов с одного ip, в т.ч. с элитных прокси. Одинаковый результат в однопоточном и многопоточных режимах. Время задержки между запросами ставил рандомную от 4-х до 10-ти сек., но потом увеличил до 30-ти, но ничего не изменилось - сервер все равно блочит айпишку. Валидные хедэры выставлял, сессии использовал (модуль requests). По анализу сайта вижу, что апи вроде есть, но как к нему подобраться не нашел. Если кто знает, как увеличить полезное число запросов, подскажите, пожалуйста!
источник

E

EFS in Scrapy
Alex
Доброго дня, коллеги!
Может, кто сталкивался с сайтом exist.ru? Проблема в том, что не удается сделать в среднем больше 50-ти запросов с одного ip, в т.ч. с элитных прокси. Одинаковый результат в однопоточном и многопоточных режимах. Время задержки между запросами ставил рандомную от 4-х до 10-ти сек., но потом увеличил до 30-ти, но ничего не изменилось - сервер все равно блочит айпишку. Валидные хедэры выставлял, сессии использовал (модуль requests). По анализу сайта вижу, что апи вроде есть, но как к нему подобраться не нашел. Если кто знает, как увеличить полезное число запросов, подскажите, пожалуйста!
кек
я впервые этот сайт открыл в жизни. мне сразу уведомление что айпишник заблочен
так что не думаю что тебе помогут таймауты
источник

S

SoHard 🎄 in Scrapy
попробуй прокси "дата-центр"
источник

S

SoHard 🎄 in Scrapy
там каждый запрос с нового ip
источник

A

Alex in Scrapy
EFS
кек
я впервые этот сайт открыл в жизни. мне сразу уведомление что айпишник заблочен
так что не думаю что тебе помогут таймауты
Ого! Какая-то странная у них политика фильтрации айпишников. Такое ощущение, они тупо блочат не просто айпи точечно, а целые подсети рубят, стоит хотя бы одному айпи засветиться и не понравиться серверу. Блин...
источник