Size: a a a

2019 October 31

i

ildar in Scrapy
Кстати, есть же крутой проект для таких вещей, под эгидой "все уже спаршено до нас"
источник

i

ildar in Scrapy
Только я забыл название, помню только, что там 8 терабайт данных
источник

МС

Михаил Синегубов in Scrapy
ildar
ничосе тут задачи - 100 лямов спарсить.  У меня максимум пара лямов были сайты)
А на таких объемах это уже начинаются задачки вида "спарсить весь интернет" чтоб по-бырику проверить какуюто научную теорию
то что у меня - там какя то хитрая статистика (хз, это уже без меня)
а так, самое "глобально" писал парсер по преребору всех пользователей вконтактика, там было ~3 млрд ID , на тот момент
источник

МС

Михаил Синегубов in Scrapy
в один поток черех API, за месяц прогрыз всех
источник

МС

Михаил Синегубов in Scrapy
ildar
Кстати, есть же крутой проект для таких вещей, под эгидой "все уже спаршено до нас"
социальки всегда актуальны для парсинга :), и всем свежак подавай
источник

i

ildar in Scrapy
ну я эт да, я больше к тому сказал, что если сидит какой ученый, и ему надо датасет какой-то текстовый в духе "весь интернет", то ему не надо бросаться писать парсер, достаточно на тот сайт залезть, ток название блин забыл(
источник

i

ildar in Scrapy
но они парсят со скрапи
источник

МС

Михаил Синегубов in Scrapy
ildar
но они парсят со скрапи
во во, скрапи рулит 🤘
источник

i

ildar in Scrapy
ща я найду! было в этом видосе
https://www.youtube.com/watch?v=l11caoD_MFc
источник

i

ildar in Scrapy
а во, нашел: http://commoncrawl.org/
источник

i

ildar in Scrapy
лям записей это фигня, кластер для этого не нужен, домашнего компуктера достаточно, там все упирается в количество прокси и стойкость самого сайта. При неспешном парсинге можно за 2-5 дней обычно любой подобный сайт спарсить. При условии, что там нет адекватного API, если есть - и они не угорают по ограничениям, это вообще может быть иной раз минут за 10 быть сделано.
источник

К

Кирилл in Scrapy
Помню был еще какой-то скрапер, типа достаешь руками одни данные, вводишь их, он парсит вторую страницу сам, а ты его поправляешь правильно или нет
источник

i

ildar in Scrapy
идешь читаешь https://docs.scrapy.org/en/latest/intro/tutorial.html и дерзаешь
источник

i

ildar in Scrapy
о, 1.8.0 вышел, надо глянуть пачноутсы)
источник

i

ildar in Scrapy
Кирилл
Помню был еще какой-то скрапер, типа достаешь руками одни данные, вводишь их, он парсит вторую страницу сам, а ты его поправляешь правильно или нет
да они ж там на скрапингхабе чет недавно выкатили вумно-нейронетное
источник

К

Кирилл in Scrapy
ildar
о, 1.8.0 вышел, надо глянуть пачноутсы)
Что-то они зачастили)  то пол года ничего не было, а тут
источник

i

ildar in Scrapy
парсишь много инфы ты одним скрапи. Ничего кроме  этого больше для начального уровня не нужно, ни кластеров, ни scrapyd. А графики это уже в сторону pandas/matplot https://python-graph-gallery.com/all-charts/  и прочее что больше нравится
источник

i

ildar in Scrapy
чооооо, вот паразиты!
The LevelDB storage backend (scrapy.extensions.httpcache.LeveldbCacheStorage) of HttpCacheMiddleware is deprecated (issue 4085, issue 4092)
источник

i

ildar in Scrapy
ну капец, и чо мне юзать теперь? боль-печаль!
источник

МС

Михаил Синегубов in Scrapy
ildar
ну капец, и чо мне юзать теперь? боль-печаль!
файлики😂
источник