Size: a a a

2019 December 14

N

Nikolay in Scrapy
Я думал это тролинг такой. Поржать хотел. Но нет походу
источник

N

Nikolay in Scrapy
Так все таки - может кидать в какой-то редис, потом оттуда на диск сохранять? И кстати он норм если хранить в нем кучу страниц хтмл?
источник

iz

izzz zzi in Scrapy
А тебе файл надо ?
источник

N

Nikolay in Scrapy
Потом да. Я не знаю какие из данных ещё после первичных понадобятся - а их много очень. Хотел сохранить всё, а потом уже добывать если надо будет чтобы не обходить по новой, ну и если надо изменения собрать - то не тянуть что не изменилось. Хотя по хешу страницы такое себе сравниваться
источник

К

Кирилл in Scrapy
Включи кэш, он делает то, что тебе нужно
источник

iz

izzz zzi in Scrapy
Кирилл
Включи кэш, он делает то, что тебе нужно
да как вариант кстати
источник

iz

izzz zzi in Scrapy
он же там в sql кидает вроде
источник

К

Кирилл in Scrapy
Нет, тот что из коробки в файлы сохраняет
источник

К

Кирилл in Scrapy
Но я видел плагины
источник

К

Кирилл in Scrapy
Или DBM, но я хз что это
источник

AR

Andrey Rahmatullin in Scrapy
в кафку ещё некоторые складывают
источник

N

Nikolay in Scrapy
Кеш. Хм проверим. Ок благодарю
источник

iz

izzz zzi in Scrapy
На сколько Scrapy быстрый?
Проверка N страниц.

requests в один поток - бесконечное время
scrapy из локальной машины - 30 минут
scrapinghub с включенным по дефолту тротлингом - больше 1 часа
scrapinghub без троттлинга 1 юнит - 23 минуты
scrapinghub без троттлинга 3 юнита - 15 минут

что это значит? сколько читаю , не понимаю)
источник

К

Кирилл in Scrapy
Что не понятно?
источник

iz

izzz zzi in Scrapy
проверка N страниц , requests бесконечность , scrapy локально - 30 мин
источник

АП

Агент Печенька in Scrapy
Откуда текст взял там и спрашивай.
источник

iz

izzz zzi in Scrapy
Агент Печенька
Откуда текст взял там и спрашивай.
из закрепа , тут и спрашиваю
источник

К

Кирилл in Scrapy
N это допустим, 50к, реквестс было лень ждать окончания, скрапи за 30 мин справился
источник

iz

izzz zzi in Scrapy
ну скрипа локально можно запустить в 1 поток , тогда не 30 мин а больше
источник

iz

izzz zzi in Scrapy
так же можно и запустить в 100+ локально и будет не 30 а меньше
источник