Телеграмм чат группы scrapy

00:39пожаловаться #1

O

Oleg in Scrapy

Oleg Maccen

Есть парсер на node js кто может поправить перестали парсить правильно

смена верстки на сайте
нужно переписовать селекторы заново

00:50пожаловаться #2

OM

Oleg Maccen in Scrapy

Oleg

смена верстки на сайте
нужно переписовать селекторы заново

Я догадался я просто не программист но понимаю что там сменили классы и так дальше, желательно туда добавить ещё задержку, а то если много запрсов сразу то их сервак банит

00:58пожаловаться #3

l

linuxoid in Scrapy

Поддержку программисту не платили?

06:10пожаловаться #4

J

Jim Morrison in Scrapy

Мак

чего тут может не получаться то
//*[@class="visually-hidden"]/following-sibling::span/text()

Спасибо, но так не работает, не находит элемент (

10:01пожаловаться #5

OM

Oleg Maccen in Scrapy

linuxoid

Поддержку программисту не платили?

это вы мне писали? :) скрипт работал отлично пока итси не сменили дескрипшины или как там правильно

11:25пожаловаться #6

SM

Ребят, всем доброго времени суток. Подскажите, пожалуйста, как лучше всего через scrapy пройтись по файлу, в котором ~10 млн. ссылок? Загружать их в список start_urls не лучшая идея, наверное.

14:10пожаловаться #7

К

Можешь использовать итерацию и читать по одной строке, но более важный вопрос, это как ты будешь хранить пропаршеные ссылки, 10м это достаточно много, так что нужно фиксировать
Я бы загрузил их в бд, ну или можешь заморочиться с файлами

К

Ребят, всем доброго времени суток. Подскажите, пожалуйста, как лучше всего через scrapy пройтись по файлу, в котором ~10 млн. ссылок? Загружать их в список start_urls не лучшая идея, наверное.

Но read и readlines точно не используй

14:22пожаловаться #9

AR

Andrey Rahmatullin in Scrapy

резать на батчи.

14:22пожаловаться #10

AR

Andrey Rahmatullin in Scrapy

ну или frontera

14:22пожаловаться #11

К

Не, батчить не нужно

14:26пожаловаться #12

SM

Кирилл

Можешь использовать итерацию и читать по одной строке, но более важный вопрос, это как ты будешь хранить пропаршеные ссылки, 10м это достаточно много, так что нужно фиксировать
Я бы загрузил их в бд, ну или можешь заморочиться с файлами

Заморочился с файлами)

14:40пожаловаться #13

SM

Я сделал что-то вроде , но мне это не нравится.

with open("urls.txt") as f:
   for url in f:
         yield scrapy.Request(url)

14:44пожаловаться #14

К

Sereja M

Заморочился с файлами)

Не ищешь легких путей, да?

14:44пожаловаться #15

К

Sereja M

Я сделал что-то вроде , но мне это не нравится.

with open("urls.txt") as f:
   for url in f:
         yield scrapy.Request(url)

Все правильно сделал, это в start_requests

14:45пожаловаться #16

SM

Кирилл

Все правильно сделал, это в start_requests

Да.

14:45пожаловаться #17

К

Sereja M

Я сделал что-то вроде , но мне это не нравится.

with open("urls.txt") as f:
   for url in f:
         yield scrapy.Request(url)

А что тебе не нравится, все хорошо

14:46пожаловаться #18

SM

Мне только только в голову збрело, что создавать дополнительный файл, с посещенными урлами - это оверхед, учитывая то, что результаты парсинга каждой ссылки заносятся в Elasticsearch 🤦‍♂️🤦‍♂️

14:48пожаловаться #19

SM

Кирилл

А что тебе не нравится, все хорошо

Очень долго работает(