Телеграмм чат группы pydata

а, я кажется понял

11:39пожаловаться #1

OA

хотя не очень понял( этот дамп можно из питона сделать?

Daria Alexeenko in Python для анализа данных

11:40пожаловаться #2

D

Oleg Agapov

хотя не очень понял( этот дамп можно из питона сделать?

нужно попросить админов бд сделать дамп той таблички, которая нужна
https://dba.stackexchange.com/questions/90482/export-postgres-table-as-json
https://stackoverflow.com/questions/31680518/exporting-data-from-postgres-to-json-and-renaming-the-columns-of-the-fly
а дальше вот как-то так (но у меня пример с jsonl):
d = {}
with jsonlines.open(‘data.jsonl') as reader:
for obj in reader:
key = obj.get('url')
value = obj.get('title')
d[key] = value
df= pd.DataFrame(data=d.items())
- в цикл можно добавить итерацию по ключам в твоем первом датафрейме и делать obj.get(i) (i - это переменная c твоими ключами из df1)

Database Administrators Stack Exchange

Export Postgres table as json

Is there a way to export postgres table data as json to a file? I need the output to be line by line, like:

{'id':1,'name':'David'}
{'id':2,'name':'James'}
...
EDIT: postgres version: 9.3.4

11:46пожаловаться #3

OA

ок, ясно. спасибо за идею @alexeedaria

Артем Гилетич... in Python для анализа данных

11:47пожаловаться #4

АГ

Oleg Agapov

Столкнулся с интересной задачей, когда Jupyter падает от недостатка памяти.
В общем, есть два запроса к mysql. Первый достает список пользователей из одной базы, второй достает данные по этим позьзователям из другой базы.
Первый запрос достает около 100к строк (небольшой дф). А потом начинается веселуха, т.к. на каждого юзера в среднем 2-3К записей из второй базы. Я сделал выгрузку чанками, более-менее отпимизировал их кол-во (чтобы не слишком много, но и не по 10 штук вытаскивать). Так вот во время выгрузки второго запроса kernel падает по памяти. На машине всего 8 гиг оперативы.
Как можно было бы оптимизировать это? По идее можно как-то промежуточные результаты кешировать где-то, но может кто уже решал такое.

Для меня в таких случаях работает следующий способ:
Извлекаю данные из БД, итерируясь по датам
pd.read_sql(query.format(date=target_date), con=engine, ...)
и сохраняю каждый файл в отдельный pickle.
Пока грузятся все даты, можно в другом ноутбуке так же последовательно обрабатывать/агрегировать уже сохраненные pickle-файлы.
Правда, работать такой способ будет только тогда, когда есть возможность агрегировать в пределах даты/клиента/чанка клиентов.

13:36пожаловаться #5

Е

Евгений in Python для анализа данных

Привет! Кто-нибудь знает как передать csv файл из Jupyter в clickhouse, чтобы потом использовать данные из него для дальнейших фильтраций?

13:38пожаловаться #6

OA

Артем Гилетич

Для меня в таких случаях работает следующий способ:
Извлекаю данные из БД, итерируясь по датам
pd.read_sql(query.format(date=target_date), con=engine, ...)
и сохраняю каждый файл в отдельный pickle.
Пока грузятся все даты, можно в другом ноутбуке так же последовательно обрабатывать/агрегировать уже сохраненные pickle-файлы.
Правда, работать такой способ будет только тогда, когда есть возможность агрегировать в пределах даты/клиента/чанка клиентов.

Спасибо, я примерно так и решил. только сохранял в csv

15:23пожаловаться #7

НК

Всем привет. Подскажите, как получить из датафрейма вида:
есть датафрейм

df = pd.DataFrame(np.array([[1,2,3], [4,5,6], [7,8,9], [1,2,3]]), columns=['a', 'b', 'c'])

И он выглядит так.
Как я могу получить сгруппированный датафрейм по столбцу 'а',
чтобы у меня получилось следующее

16:11пожаловаться #8

НК

a | values
1 [2,3], [2,3]
4 [5,6]
7 [8,9]

16:13пожаловаться #9

НК

то есть уникальное значение 'a' один раз, а в другой колонке списки, которые получились из строк, соответствующих значениям 'a'

16:14пожаловаться #10

АМ

Николай Курдюбов

Всем привет. Подскажите, как получить из датафрейма вида:
есть датафрейм

df = pd.DataFrame(np.array([[1,2,3], [4,5,6], [7,8,9], [1,2,3]]), columns=['a', 'b', 'c'])

И он выглядит так.
Как я могу получить сгруппированный датафрейм по столбцу 'а',
чтобы у меня получилось следующее

df.groupby('a').apply(lambda x: x[['b','c']].values)

16:17пожаловаться #11

НК

Алексей Макаров

df.groupby('a').apply(lambda x: x[['b','c']].values)

Спасибо!

16:19пожаловаться #12

АМ

Если нужен не series, а датафрейм на выходе, то просто вызвать к получившейся конструкции метод .to_frame()

Евгений Доронин... in Python для анализа данных

16:19пожаловаться #13

ЕД

Евгений

Привет! Кто-нибудь знает как передать csv файл из Jupyter в clickhouse, чтобы потом использовать данные из него для дальнейших фильтраций?

Через внешние таблицы.
Если не забуду, скину завтра. Или в ЛС напомните пример

16:34пожаловаться #14

НК

@ax_makarov а можете немного объяснить, если не трудно?
я пытался сначала сделать новый столбец df['values'] = [df['b'], df['c']] и уже обламывался на этом этапе, так и не понял, что было неправильно

16:34пожаловаться #15

Е

Евгений in Python для анализа данных

Евгений Доронин

Через внешние таблицы.
Если не забуду, скину завтра. Или в ЛС напомните пример

буду премного благодарен! Напишу в личку

16:35пожаловаться #16

АМ

Николай Курдюбов

@ax_makarov а можете немного объяснить, если не трудно?
я пытался сначала сделать новый столбец df['values'] = [df['b'], df['c']] и уже обламывался на этом этапе, так и не понял, что было неправильно

Когда вы создаете [df['b'], df['c']], то тем самым делаете просто одномерный список из двух Series.

16:37пожаловаться #17

АМ

16:37пожаловаться #18

АМ

Чтобы создать колонку, в которой был бы список элементов из колонки b и c, можно поступить вот так: df.apply(lambda x: [x['b'],x['c']],axis=1)

16:39пожаловаться #19

АМ

Ну и потом уже сделать groupby со сворачиванием в список