Size: a a a

2019 December 12

B

BOT FACTORY in Scrapy
У кого парсер етси?
источник

O

Oleg in Scrapy
Oleg Maccen
Есть парсер на node js кто может поправить перестали парсить правильно
смена верстки на сайте
нужно переписовать селекторы заново
источник

OM

Oleg Maccen in Scrapy
Oleg
смена верстки на сайте
нужно переписовать селекторы заново
Я догадался я просто не программист но понимаю что там сменили классы и так дальше, желательно туда добавить ещё задержку, а то если много запрсов сразу то их сервак банит
источник

l

linuxoid in Scrapy
Поддержку программисту не платили?
источник

J

Jim Morrison in Scrapy
Мак
чего тут может не получаться то
//*[@class="visually-hidden"]/following-sibling::span/text()
Спасибо, но так не работает, не находит элемент (
источник

OM

Oleg Maccen in Scrapy
linuxoid
Поддержку программисту не платили?
это вы мне писали? :) скрипт работал отлично пока итси не сменили дескрипшины или как там правильно
источник

SM

Sereja M in Scrapy
Ребят, всем доброго времени суток. Подскажите, пожалуйста, как лучше всего через scrapy пройтись по файлу, в котором ~10 млн. ссылок? Загружать их в список start_urls не лучшая идея, наверное.
источник

К

Кирилл in Scrapy
Можешь использовать итерацию и читать по одной строке, но более важный вопрос, это как ты будешь хранить пропаршеные ссылки,  10м это достаточно много, так что нужно фиксировать
Я бы загрузил их в бд, ну или можешь заморочиться с файлами
источник

К

Кирилл in Scrapy
Sereja M
Ребят, всем доброго времени суток. Подскажите, пожалуйста, как лучше всего через scrapy пройтись по файлу, в котором ~10 млн. ссылок? Загружать их в список start_urls не лучшая идея, наверное.
Но read и readlines точно не используй
источник

AR

Andrey Rahmatullin in Scrapy
резать на батчи.
источник

AR

Andrey Rahmatullin in Scrapy
ну или frontera
источник

К

Кирилл in Scrapy
Не, батчить не нужно
источник

SM

Sereja M in Scrapy
Кирилл
Можешь использовать итерацию и читать по одной строке, но более важный вопрос, это как ты будешь хранить пропаршеные ссылки,  10м это достаточно много, так что нужно фиксировать
Я бы загрузил их в бд, ну или можешь заморочиться с файлами
Заморочился с файлами)
источник

SM

Sereja M in Scrapy
Я сделал что-то вроде , но мне это не нравится.

with open("urls.txt") as f:
  for url in f:
        yield scrapy.Request(url)
источник

К

Кирилл in Scrapy
Sereja M
Заморочился с файлами)
Не ищешь легких путей, да?
источник

К

Кирилл in Scrapy
Sereja M
Я сделал что-то вроде , но мне это не нравится.

with open("urls.txt") as f:
  for url in f:
        yield scrapy.Request(url)
Все правильно сделал, это в start_requests
источник

SM

Sereja M in Scrapy
Кирилл
Все правильно сделал, это в start_requests
Да.
источник

К

Кирилл in Scrapy
Sereja M
Я сделал что-то вроде , но мне это не нравится.

with open("urls.txt") as f:
  for url in f:
        yield scrapy.Request(url)
А что тебе не нравится, все хорошо
источник

SM

Sereja M in Scrapy
Мне только только в голову збрело, что создавать дополнительный файл, с посещенными урлами - это оверхед, учитывая то, что результаты парсинга каждой ссылки заносятся в Elasticsearch 🤦‍♂️🤦‍♂️
источник

SM

Sereja M in Scrapy
Кирилл
А что тебе не нравится, все хорошо
Очень долго работает(
источник