Телеграмм чат группы scrapy

человеки, сугубо творчески вопрос оптимизации производительноси/памяти.
у меня за проход обрабатывается ~200-400 тыс айтемов (рекорд, пока, ~4 млн)
все пишется в постгрес базу, с контроем уникальности, чанками по 10 тыс. и открытием/закрытием транзакции
какой подход более подходящий для "тру программиста"
1. бросаем все в базу, а там двиг уже сам разберется дубликат или нет (дубликаты игнорятся) - так сейчас и есть
2. держим в памяти список ID (длинное целое) смотрим дубликаты по нему....

источник

16:57пожаловаться #6

AR

Andrey Rahmatullin in Scrapy

редис

источник

16:58пожаловаться #7

AR

Andrey Rahmatullin in Scrapy

но это так, от балды

источник

16:58пожаловаться #8

МС

Михаил Синегубов in Scrapy

Andrey Rahmatullin

но это так, от балды

😂,ну, блин, ну, спасибо

источник

17:00пожаловаться #9

ЕJ

Евгений Jen in Scrapy

Михаил Синегубов

человеки, сугубо творчески вопрос оптимизации производительноси/памяти.
у меня за проход обрабатывается ~200-400 тыс айтемов (рекорд, пока, ~4 млн)
все пишется в постгрес базу, с контроем уникальности, чанками по 10 тыс. и открытием/закрытием транзакции
какой подход более подходящий для "тру программиста"
1. бросаем все в базу, а там двиг уже сам разберется дубликат или нет (дубликаты игнорятся) - так сейчас и есть
2. держим в памяти список ID (длинное целое) смотрим дубликаты по нему....

мы как то такую вундерфлю сделали
scrapyd[...] -> .csv -> rsync -> pg-copy (из csv в raw таблицу общею)
дальше уже sql функция расскидывала ads из raw таблицы по целевым (фирма/контакты/объявление)
*спайдеры запускал speeder-keeper - внутри не сложный но кривой
*импортом занимался celery
—
время на разработку 1 год, в результате даже альфу не выкатели из за преждеверменных оптимизаций : (

источник

17:46пожаловаться #10

ЕJ

Евгений Jen in Scrapy

ну парсить оно парсило) а вот сайт агригатор с поиском так и не собрали для релиза

источник

17:47пожаловаться #11

V

Victor in Scrapy

А чего не сделали? Это же не рокетсайсн

источник

17:48пожаловаться #12