Size: a a a

2019 October 31

EB

Elisei Badanin in Scrapy
но и то, в зависимости от объемов там скорее всего скрапи-редис хватит
источник

EB

Elisei Badanin in Scrapy
Михаил Синегубов
инста, вконтактик...
даст парсить 100М?) в какой период? 100M/84600 - в один поток это 1к дней
источник

МС

Михаил Синегубов in Scrapy
Elisei Badanin
единственное адекватное применение кластера это парсинг всего инета(яндекс/гугл)
не, ну у меня грозит задача парсить ГЕО инсты но паре сотен городов. Если пойдет проект. То там десятки млн постов в адекватное время обрабатывать надо + всех авторов.
Че то интеерсненькое предполагается...
источник

EB

Elisei Badanin in Scrapy
одна нода держит 10-20 потоков спокойно — 50-100 дней….
источник

EB

Elisei Badanin in Scrapy
там еще проблема интерестная вылезет….ботлнеком будет БД…прост мало кто парсил что-то действительно крупное…у меня БД в несколько ТБ, запись занимает больше времени, чем парсинг с одной ноды
источник

EB

Elisei Badanin in Scrapy
и это с кучей хаков, отключенными транзакциями итд
источник

МС

Михаил Синегубов in Scrapy
Elisei Badanin
там еще проблема интерестная вылезет….ботлнеком будет БД…прост мало кто парсил что-то действительно крупное…у меня БД в несколько ТБ, запись занимает больше времени, чем парсинг с одной ноды
да это да, я сразу людям озмвучил эту проблему, пускай думают :)
источник

EB

Elisei Badanin in Scrapy
и строк там около 8Б
источник

МС

Михаил Синегубов in Scrapy
кстати о базах - на стадии разработки постгрес в докере поднять, это по феншую или нет? На разработке суммарно несколько млн записей будет...
источник

МС

Михаил Синегубов in Scrapy
а то чет увидел вопрос на тостере про тормоза в докере - там человека помидорами закидали 😂
источник

МС

Михаил Синегубов in Scrapy
блин, лям записей, это и в csv при большом желании можно хранить :)
источник

B

Bulatbulat48 in Scrapy
Elisei Badanin
и строк там около 8Б
а nosql пробывал?
источник

МС

Михаил Синегубов in Scrapy
json тяжелее втягиваться будет, сугубо мое мнение....
но, в любом случае, не забивай себе голову кластером
источник

EB

Elisei Badanin in Scrapy
Bulatbulat48
а nosql пробывал?
там реляционная нужна
источник

i

ildar in Scrapy
ну какой-нить постгресс - спокойно
источник

EB

Elisei Badanin in Scrapy
постгрес и стоит
источник

i

ildar in Scrapy
шо за гусь парсер?
источник

EB

Elisei Badanin in Scrapy
мускуль сдох на первой версии этой бд
источник

i

ildar in Scrapy
хм, какая-то похоже заброшка, судя по последнему коммиту 8 месяцев назад
источник

i

ildar in Scrapy
ничосе тут задачи - 100 лямов спарсить.  У меня максимум пара лямов были сайты)
А на таких объемах это уже начинаются задачки вида "спарсить весь интернет" чтоб по-бырику проверить какуюто научную теорию
источник