Size: a a a

2019 December 12

К

Кирилл in Scrapy
Ну так это же файл
источник

К

Кирилл in Scrapy
Sereja M
Мне только только в голову збрело, что создавать дополнительный файл, с посещенными урлами - это оверхед, учитывая то, что результаты парсинга каждой ссылки заносятся в Elasticsearch 🤦‍♂️🤦‍♂️
Второй файл не поможет, если ты будешь перезапуск делать, а с 10м, ты точно будешь, тебе нужно будет каждую ссылку из одного файла искать в другом
источник

К

Кирилл in Scrapy
Можешь сделать csv, первой колонкой урл, второй 0/1, при парсе ставишь ссылке 1, и парсишь только 0
источник

E

Evgen in Scrapy
О @wrar42 привет :)
источник

AR

Andrey Rahmatullin in Scrapy
Привет
источник

К

Кирилл in Scrapy
Но опять же, бери бд и не мучай файл
источник

SM

Sereja M in Scrapy
Кирилл
Но опять же, бери бд и не мучай файл
Да, я теперь это понял. Странно, что я раньше к этому не додумался. В любом случае, спасибо тебе огромное за советы✌️
источник

К

Кирилл in Scrapy
Так как это парс, у тебя будет асинхрон, файловый курсор будет убегать, чтоб поставить флаг нужно будет морочиться с сохранением номера строки или байта, я не помню есть ли у пайтона запись которая не трогает курсор, так что еще возможно нужно будет открывать два дескриптора на файл
источник

AR

Andrey Rahmatullin in Scrapy
Ну это ересь в любом случае :)
источник

AR

Andrey Rahmatullin in Scrapy
Бд не зря придумали
источник

К

Кирилл in Scrapy
+
источник

К

Кирилл in Scrapy
Никогда не работал с эластик серч, для чего он подходит?
источник

iz

izzz zzi in Scrapy
Кирилл
Так как это парс, у тебя будет асинхрон, файловый курсор будет убегать, чтоб поставить флаг нужно будет морочиться с сохранением номера строки или байта, я не помню есть ли у пайтона запись которая не трогает курсор, так что еще возможно нужно будет открывать два дескриптора на файл
пайп же в 1 поток пишет
источник

iz

izzz zzi in Scrapy
Кирилл
Никогда не работал с эластик серч, для чего он подходит?
полнотекстовый поиск)
источник

К

Кирилл in Scrapy
izzz zzi
пайп же в 1 поток пишет
Я про входящий файл, а не сами данные парса
источник

iz

izzz zzi in Scrapy
Кирилл
Я про входящий файл, а не сами данные парса
а .понял
источник

К

Кирилл in Scrapy
Хоть чтение ссылок и синхрон, но возврат результатов уже будет рандом
источник

iz

izzz zzi in Scrapy
мне больше интересно как вышло что скрапи из коробки не держит сокс
источник

AR

Andrey Rahmatullin in Scrapy
Nobody did the work как говорится
источник

iz

izzz zzi in Scrapy
как найти горлышко , при увеличении CONCURRENT_REQUESTS и отключенном AUTOTHROTTLE_ENABLED , скорость падает
источник