Телеграмм чат группы pydata

Меня интересовало больше как два аналитика общаясь между собой будут их называть, ответ получил, а по поводу оригинала, не каждый знает английский на таком уровне, увы

источник

20:19пожаловаться #12

NK

ID:425353012 in Python для анализа данных

Всем привет, вопрос наверное простой, но что то завис) Буду рад любым советам по поводу как реализовать парсинг тематический чатов в телеграмме на python😓

источник

20:26пожаловаться #13

YP

Yuriy Prudnikov in Python для анализа данных

ID:425353012

Всем привет, вопрос наверное простой, но что то завис) Буду рад любым советам по поводу как реализовать парсинг тематический чатов в телеграмме на python😓

Копай в сторону либы pyrogram. Заведи отдельный аккаунт, вступи в нужные группы и отлавливай сообщения

источник

20:48пожаловаться #14

NK

ID:425353012 in Python для анализа данных

Yuriy Prudnikov

Копай в сторону либы pyrogram. Заведи отдельный аккаунт, вступи в нужные группы и отлавливай сообщения

Благодарю

источник

20:49пожаловаться #15

2019 October 08

OA

Oleg Agapov in Python для анализа данных

Столкнулся с интересной задачей, когда Jupyter падает от недостатка памяти.
В общем, есть два запроса к mysql. Первый достает список пользователей из одной базы, второй достает данные по этим позьзователям из другой базы.
Первый запрос достает около 100к строк (небольшой дф). А потом начинается веселуха, т.к. на каждого юзера в среднем 2-3К записей из второй базы. Я сделал выгрузку чанками, более-менее отпимизировал их кол-во (чтобы не слишком много, но и не по 10 штук вытаскивать). Так вот во время выгрузки второго запроса kernel падает по памяти. На машине всего 8 гиг оперативы.
Как можно было бы оптимизировать это? По идее можно как-то промежуточные результаты кешировать где-то, но может кто уже решал такое.

источник

11:26пожаловаться #16

D

Daria Alexeenko in Python для анализа данных

Oleg Agapov

Столкнулся с интересной задачей, когда Jupyter падает от недостатка памяти.
В общем, есть два запроса к mysql. Первый достает список пользователей из одной базы, второй достает данные по этим позьзователям из другой базы.
Первый запрос достает около 100к строк (небольшой дф). А потом начинается веселуха, т.к. на каждого юзера в среднем 2-3К записей из второй базы. Я сделал выгрузку чанками, более-менее отпимизировал их кол-во (чтобы не слишком много, но и не по 10 штук вытаскивать). Так вот во время выгрузки второго запроса kernel падает по памяти. На машине всего 8 гиг оперативы.
Как можно было бы оптимизировать это? По идее можно как-то промежуточные результаты кешировать где-то, но может кто уже решал такое.

у меня был чуть другой кейс когда кернел не выдерживал, но возможно поможет. если в первом df содержатся ключи, по которым ты хочешь достать значения из второго большого df, то второй df можно вытащить как json-дамп и вытягивать из него значения по ключу, не читая его

источник

11:33пожаловаться #17

OA

Oleg Agapov in Python для анализа данных

хм. а если у меня нет второго дф? он точно в пямять не залезет. я поэтому и делаю подзапросами. или я не так понял?

источник

11:34пожаловаться #18

D

Daria Alexeenko in Python для анализа данных

Oleg Agapov

хм. а если у меня нет второго дф? он точно в пямять не залезет. я поэтому и делаю подзапросами. или я не так понял?

его не нужно полностью читать/ загружать в память. можно сделать дамп базы в json или jsonl формате и обращаться к дампу как к словарю