Size: a a a

2019 October 31

EB

Elisei Badanin in Scrapy
fatklass
Если запустить паука крутиться на scrapid ему можно как то скармливать новые url для Парсинга?
там http api
источник

М

Мак in Scrapy
Elisei Badanin
но как это к исключениям относится?
Отвал сторонней бд например, и какие действия в связи с этим предпринять
источник

АП

Агент Печенька in Scrapy
Упасть.
источник

EB

Elisei Badanin in Scrapy
Мак
Отвал сторонней бд например, и какие действия в связи с этим предпринять
как связанно с твистедом?
источник

EB

Elisei Badanin in Scrapy
имхо, не нужно из скрапи сохранять в бд, при маломальских(потоков 5-10) объемах это все загнется….
источник

М

Мак in Scrapy
Elisei Badanin
имхо, не нужно из скрапи сохранять в бд, при маломальских(потоков 5-10) объемах это все загнется….
Так надо... Постгре вроде держит, но отвалы бывают все таки
источник

f

fatklass in Scrapy
Elisei Badanin
там http api
А можно ссылку на документацию по этой теме или по каким ключам искать ? Интересует конкретно что то на подобии очереди
источник

АП

Агент Печенька in Scrapy
Elisei Badanin
имхо, не нужно из скрапи сохранять в бд, при маломальских(потоков 5-10) объемах это все загнется….
Можно пайплайном собирать итемы в список а при завершении вставлять в базу.
источник

АП

Агент Печенька in Scrapy
Но согласен, если есть возможность то лучше так не делать.
источник

М

Мак in Scrapy
Агент Печенька
Можно пайплайном собирать итемы в список а при завершении вставлять в базу.
Так и происходит, но иногда коннект с базой пропадает просто
источник

f

fatklass in Scrapy
Elisei Badanin
имхо, не нужно из скрапи сохранять в бд, при маломальских(потоков 5-10) объемах это все загнется….
Блин есть задача нужен контент с N сайтов для почт обработки как его ещё то получить))
источник

f

fatklass in Scrapy
Пост
источник

EB

Elisei Badanin in Scrapy
небольшой лигбез….в скрапи только сетевая часть работает асинхронно(несколько потоков), а вот калбеки и соответсвенно сохранение в бд идет синхронно(в одном потоке), допустим минимальный запрос на сохранение 50мс — 20 итемов в секунду максимум….а если перед созранением что-то достать нужно, то там вообще все печально будет
источник

f

fatklass in Scrapy
Да время не важно
источник

EB

Elisei Badanin in Scrapy
ну или просто в файл сохраняем — скрапи отработал, обрабатываем файл в отдельном скрипте….
источник

EB

Elisei Badanin in Scrapy
ну или правильнее(но геморнее) складываем в очередь(тот же редис), а в отдельном воркере обрабатываем
источник

М

Мак in Scrapy
Elisei Badanin
ну или просто в файл сохраняем — скрапи отработал, обрабатываем файл в отдельном скрипте….
Это боль... Собрать на один сервер, потом обработать и передать на другой...
источник

EB

Elisei Badanin in Scrapy
fatklass
Да время не важно
там проблема не времени, а блокирующие операции
источник

АП

Агент Печенька in Scrapy
Elisei Badanin
небольшой лигбез….в скрапи только сетевая часть работает асинхронно(несколько потоков), а вот калбеки и соответсвенно сохранение в бд идет синхронно(в одном потоке), допустим минимальный запрос на сохранение 50мс — 20 итемов в секунду максимум….а если перед созранением что-то достать нужно, то там вообще все печально будет
Насколько я помню разбор html идёт многопоточно, но общей сути это не меняет.
источник

EB

Elisei Badanin in Scrapy
Мак
Это боль... Собрать на один сервер, потом обработать и передать на другой...
ну как вариант, запускаем из питона, форкаем, в одном процесе скрапи, в дргом(других) пишем в бд, между процесами стандартная очередь
источник