Size: a a a

2020 January 17

ЕJ

Евгений Jen in Scrapy
хм, интересный подход
источник

B

Bulatbulat48 in Scrapy
кстати, тут кто-про просил сложный спайдер посмотреть. @Molfar_Page
источник

МС

Михаил Синегубов in Scrapy
Bulatbulat48
кстати, тут кто-про просил сложный спайдер посмотреть. @Molfar_Page
пожалей человека... он просил сложного паука, а не секасом заняться😂
источник

B

Bulatbulat48 in Scrapy
Михаил Синегубов
пожалей человека... он просил сложного паука, а не секасом заняться😂
хах 🤣 вчера сел смотреть этот аспнет, как полдня и не было 🙂
источник

VB

Vladyslav Babych in Scrapy
Bulatbulat48
кстати, тут кто-про просил сложный спайдер посмотреть. @Molfar_Page
Спасибо, уже залип
источник

МС

Михаил Синегубов in Scrapy
человеки, сугубо творчески вопрос оптимизации производительноси/памяти.
у меня за проход обрабатывается ~200-400 тыс айтемов (рекорд, пока, ~4 млн)
все пишется в постгрес базу, с контроем уникальности, чанками по 10 тыс. и открытием/закрытием транзакции
какой подход более подходящий для "тру программиста"
1. бросаем все в базу, а там двиг уже сам разберется дубликат или нет (дубликаты игнорятся) - так сейчас и есть
2. держим в памяти список ID (длинное  целое) смотрим дубликаты по нему....
источник

AR

Andrey Rahmatullin in Scrapy
редис
источник

AR

Andrey Rahmatullin in Scrapy
но это так, от балды
источник

МС

Михаил Синегубов in Scrapy
Andrey Rahmatullin
но это так, от балды
😂,ну, блин, ну, спасибо
источник

ЕJ

Евгений Jen in Scrapy
Михаил Синегубов
человеки, сугубо творчески вопрос оптимизации производительноси/памяти.
у меня за проход обрабатывается ~200-400 тыс айтемов (рекорд, пока, ~4 млн)
все пишется в постгрес базу, с контроем уникальности, чанками по 10 тыс. и открытием/закрытием транзакции
какой подход более подходящий для "тру программиста"
1. бросаем все в базу, а там двиг уже сам разберется дубликат или нет (дубликаты игнорятся) - так сейчас и есть
2. держим в памяти список ID (длинное  целое) смотрим дубликаты по нему....
мы как то такую вундерфлю сделали
scrapyd[...] -> .csv -> rsync ->  pg-copy (из csv  в raw таблицу общею)
дальше уже sql функция расскидывала ads из raw таблицы по целевым (фирма/контакты/объявление)
*спайдеры запускал speeder-keeper - внутри не сложный но кривой
*импортом занимался celery

время на разработку 1 год, в результате даже альфу не выкатели из за преждеверменных оптимизаций : (
источник

ЕJ

Евгений Jen in Scrapy
ну парсить оно парсило) а вот сайт агригатор с поиском так и не собрали для релиза
источник

V

Victor in Scrapy
А чего не сделали? Это же не рокетсайсн
источник

ЕJ

Евгений Jen in Scrapy
деньги закончились у заказчика)
источник

V

Victor in Scrapy
Какой сайт парсил?
источник

ЕJ

Евгений Jen in Scrapy
да там штук 10 hh авито, ljob и всякие там job)
источник

ЕJ

Евгений Jen in Scrapy
может даже 15
источник

ЕJ

Евгений Jen in Scrapy
ну  8 стабильно работали, остальные 4-6 стабильно ломались
источник

ЕJ

Евгений Jen in Scrapy
задача была сразу сделать мировой сайт с мего нагрузкой, а надо было хотя бы до hh уровня или авито
источник

V

Victor in Scrapy
Они же тащат инфу друг у друга. Можно было найти один эталон и его парсить😂
источник

ЕJ

Евгений Jen in Scrapy
ну заказчих хотел обкатать на российском рынке и после только наращивать парсеры под европу, штаты
источник