Телеграмм чат группы pydata_chat страница 817

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Python для анализа данных

2359 membersпожаловаться на группу

2021 July 14

VM

Valerii Mamontov in Python для анализа данных

@realdronos правильно тебе советует, раздели tx_data на два блока:
1) tx_data_1 - сюда положи json (первый столбец)
2) tx_data_2 - сюда остальные два столбца (event_time и client_event_time)

Потом примени к первому блоку метод для нормализации json, все примеры кода есть в документации. Наскоком тут задачу не решить - нужно читать и писать код, потом снова читать и снова писать код.

источник

18:09пожаловаться #1

AG

Andrei Gusev in Python для анализа данных

Screenshot 2021-07-14 at 18.07.13.png

мне надо как-то зачистить эти кавычки , тогжа метод работает

источник

18:10пожаловаться #2

VM

Valerii Mamontov in Python для анализа данных

1. можно или изменить алгоритм, который выгружает данные в csv (есть возможность оборачивать данные из столбцов в кавычки, которую можно "отключить")
2. можно написать скрипт, который преобразует строку в словарь

источник

18:23пожаловаться #3

VM

Valerii Mamontov in Python для анализа данных

если совсем примитивно, то примерно так:

text = '{12: "asjdfjh", 22: "asdjfdjf"}'
text = text.replace('{', '').replace('}', '')

text_list = text.split(',')

data_dict = {}

for i in text_list:
    key = int(i.split(':')[0].replace("'", ""))
    value = i.split(':')[1].replace('"', '').strip()
    data_dict[key] = value

print(data_dict[12])

источник

18:35пожаловаться #4

AG

Andrei Gusev in Python для анализа данных

даже примитивное выкидывает ошибку . ValueError: invalid literal for int() with base 10: 'mopub_json'

источник

18:52пожаловаться #5

AG

Andrei Gusev in Python для анализа данных

поменять формат выгрузки невозможно , автоматически отдает амплитуда

источник

18:53пожаловаться #6

VM

Valerii Mamontov in Python для анализа данных

посмотри код внимательно и почитай как обращаться в Python к словарю по ключу
в твоём случае text - это ТВОЯ_ЯЧЕЙКА['mopub_json']

источник

18:56пожаловаться #7

AG

Andrei Gusev in Python для анализа данных

Извини, я сильный джун , и не всегда понимаю

источник

19:00пожаловаться #8

VM

Valerii Mamontov in Python для анализа данных

пойми, я написал абстрактный код, ты его в лоб не применишь к своим данным.
Мой код тебе нужен, чтобы ты понял мысль, идею.

источник

19:01пожаловаться #9

VM

Valerii Mamontov in Python для анализа данных

разбери код по частям, посмотри, что он делает и потом напиши свой - для своих данных

источник

19:02пожаловаться #10

VM

Valerii Mamontov in Python для анализа данных

источник

19:07пожаловаться #11

AG

Andrei Gusev in Python для анализа данных

Я примерно понял , буду пробовать

источник

19:10пожаловаться #12

2021 July 15

AD

Andrey Dolgopolov in Python для анализа данных

Может кто-то находил отличные корпуса для выявления агрессивности в тексте??? На более менее популярных ресурсах уже все посмотрел

источник

00:42пожаловаться #13

I

Ivan Burmachev in Python для анализа данных

Нет, но если вдруг найдёшь - делись C:

источник

04:23пожаловаться #14

VM

Valerii Mamontov in Python для анализа данных

Точнее напишите, что нужно.
Есть корпуса из Твиттера, комментарии из Инстаграмма.
Видел отдельный канал в тг с датасетами.

источник

07:04пожаловаться #15

VM

Valerii Mamontov in Python для анализа данных

Социальные сети

2 500 000 приватных юзеров инстаграмма

1 000 000 картинок Инстаграмма

Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.

Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus

Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:

Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset

Каталог пользователей ВКонтакте
https://vk.com/catalog.php

2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom

Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data

Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info

Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity

Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews

InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/

@dataset_ru

источник

07:07пожаловаться #16

AK

Anup Kuplu in Python для анализа данных

полезная статья

источник

10:03пожаловаться #17

AK

Anup Kuplu in Python для анализа данных

Как добиться от моделей глубокого обучения большей генерализации?

Вы можете использовать IRM практически в любой базовой модельной структуре. Однако эта система наиболее эффективна, когда ее применяют к моделям черного ящика, оперирующим большим количеством данных (нейронные сети и их многочисленные разновидности).

Давайте же узнаем, как это работает.

https://nuancesprog.ru/p/13125/

@machinelearning_ru

источник

10:03пожаловаться #18

P

Pavel in Python для анализа данных

@ax_makarov предлагаю забанить товарища выше, посмотрел его сообщения, только репосты)

источник

10:47пожаловаться #19

A

Andrey Denisov in Python для анализа данных

Ну он репостит полезные штуки жеж

источник

10:47пожаловаться #20