Телеграмм чат группы scrapy

Кстати, есть же крутой проект для таких вещей, под эгидой "все уже спаршено до нас"

17:21пожаловаться #1

Только я забыл название, помню только, что там 8 терабайт данных

17:21пожаловаться #2

МС

ничосе тут задачи - 100 лямов спарсить. У меня максимум пара лямов были сайты)
А на таких объемах это уже начинаются задачки вида "спарсить весь интернет" чтоб по-бырику проверить какуюто научную теорию

то что у меня - там какя то хитрая статистика (хз, это уже без меня)
а так, самое "глобально" писал парсер по преребору всех пользователей вконтактика, там было ~3 млрд ID , на тот момент

17:22пожаловаться #3

МС

в один поток черех API, за месяц прогрыз всех

17:22пожаловаться #4

МС

Кстати, есть же крутой проект для таких вещей, под эгидой "все уже спаршено до нас"

социальки всегда актуальны для парсинга :), и всем свежак подавай

17:23пожаловаться #5

ну я эт да, я больше к тому сказал, что если сидит какой ученый, и ему надо датасет какой-то текстовый в духе "весь интернет", то ему не надо бросаться писать парсер, достаточно на тот сайт залезть, ток название блин забыл(

17:24пожаловаться #6

но они парсят со скрапи

17:24пожаловаться #7

МС

но они парсят со скрапи

во во, скрапи рулит 🤘

17:25пожаловаться #8

Михаил Коробов, ScrapingHub «Машинное обучение для извлечения данных из веба»

ща я найду! было в этом видосе
https://www.youtube.com/watch?v=l11caoD_MFc

YouTube

Выступление на конферении PYCON RUSSIA 2018 http://pycon.ru/2018/

17:25пожаловаться #9

а во, нашел: http://commoncrawl.org/

17:27пожаловаться #10

лям записей это фигня, кластер для этого не нужен, домашнего компуктера достаточно, там все упирается в количество прокси и стойкость самого сайта. При неспешном парсинге можно за 2-5 дней обычно любой подобный сайт спарсить. При условии, что там нет адекватного API, если есть - и они не угорают по ограничениям, это вообще может быть иной раз минут за 10 быть сделано.

17:34пожаловаться #11

Кирилл in Scrapy

Михаил Коробов, ScrapingHub «Машинное обучение для извлечения данных из веба»

ща я найду! было в этом видосе
https://www.youtube.com/watch?v=l11caoD_MFc

YouTube

Выступление на конферении PYCON RUSSIA 2018 http://pycon.ru/2018/

Помню был еще какой-то скрапер, типа достаешь руками одни данные, вводишь их, он парсит вторую страницу сам, а ты его поправляешь правильно или нет

17:34пожаловаться #12

идешь читаешь https://docs.scrapy.org/en/latest/intro/tutorial.html и дерзаешь

17:34пожаловаться #13

о, 1.8.0 вышел, надо глянуть пачноутсы)

17:35пожаловаться #14

Кирилл

да они ж там на скрапингхабе чет недавно выкатили вумно-нейронетное

17:35пожаловаться #15

Кирилл in Scrapy

о, 1.8.0 вышел, надо глянуть пачноутсы)

Что-то они зачастили) то пол года ничего не было, а тут

17:37пожаловаться #16

This page displays all the charts currently present in the python graph gallery. Hundreds of charts are present, always realised with the python programming language. This is a good opportunity to …

парсишь много инфы ты одним скрапи. Ничего кроме этого больше для начального уровня не нужно, ни кластеров, ни scrapyd. А графики это уже в сторону pandas/matplot https://python-graph-gallery.com/all-charts/ и прочее что больше нравится

The Python Graph Gallery

All Charts

17:38пожаловаться #17

чооооо, вот паразиты!
The LevelDB storage backend (scrapy.extensions.httpcache.LeveldbCacheStorage) of HttpCacheMiddleware is deprecated (issue 4085, issue 4092)

17:41пожаловаться #18

ну капец, и чо мне юзать теперь? боль-печаль!

17:41пожаловаться #19

МС

ну капец, и чо мне юзать теперь? боль-печаль!

файлики😂