Size: a a a

Python для анализа данных

2021 July 14

VM

Valerii Mamontov in Python для анализа данных
@realdronos правильно тебе советует, раздели tx_data на два блока:
1) tx_data_1 - сюда положи json (первый столбец)
2) tx_data_2 - сюда остальные два столбца (event_time и client_event_time)

Потом примени к первому блоку метод для нормализации json, все примеры кода есть в документации. Наскоком тут задачу не решить - нужно читать и писать код, потом снова читать и снова писать код.
источник

AG

Andrei Gusev in Python для анализа данных
мне надо как-то зачистить эти кавычки , тогжа метод работает
источник

VM

Valerii Mamontov in Python для анализа данных
1. можно или изменить алгоритм, который выгружает данные в csv (есть возможность оборачивать данные из столбцов в кавычки, которую можно "отключить")
2. можно написать скрипт, который преобразует строку в словарь
источник

VM

Valerii Mamontov in Python для анализа данных
если совсем примитивно, то примерно так:
text = '{12: "asjdfjh", 22: "asdjfdjf"}'
text = text.replace('{', '').replace('}', '')

text_list = text.split(',')

data_dict = {}

for i in text_list:
   key = int(i.split(':')[0].replace("'", ""))
   value = i.split(':')[1].replace('"', '').strip()
   data_dict[key] = value

print(data_dict[12])
источник

AG

Andrei Gusev in Python для анализа данных
даже примитивное выкидывает ошибку . ValueError: invalid literal for int() with base 10: 'mopub_json'
источник

AG

Andrei Gusev in Python для анализа данных
поменять формат выгрузки невозможно , автоматически отдает амплитуда
источник

VM

Valerii Mamontov in Python для анализа данных
посмотри код внимательно и почитай как обращаться в Python к словарю по ключу
в твоём случае text - это ТВОЯ_ЯЧЕЙКА['mopub_json']
источник

AG

Andrei Gusev in Python для анализа данных
Извини, я сильный джун , и не всегда понимаю
источник

VM

Valerii Mamontov in Python для анализа данных
пойми, я написал абстрактный код, ты его в лоб не применишь к своим данным.
Мой код тебе нужен, чтобы ты понял мысль, идею.
источник

VM

Valerii Mamontov in Python для анализа данных
разбери код по частям, посмотри, что он делает и потом напиши свой - для своих данных
источник

VM

Valerii Mamontov in Python для анализа данных
источник

AG

Andrei Gusev in Python для анализа данных
Я примерно понял , буду пробовать
источник
2021 July 15

AD

Andrey Dolgopolov in Python для анализа данных
Может кто-то находил отличные корпуса для выявления агрессивности в тексте??? На более менее популярных ресурсах уже все посмотрел
источник

I

Ivan Burmachev in Python для анализа данных
Нет, но если вдруг найдёшь - делись C:
источник

VM

Valerii Mamontov in Python для анализа данных
Точнее напишите, что нужно.
Есть корпуса из Твиттера, комментарии из Инстаграмма.
Видел отдельный канал в тг с датасетами.
источник

VM

Valerii Mamontov in Python для анализа данных
Социальные сети

2 500 000 приватных юзеров инстаграмма

1 000 000 картинок Инстаграмма

Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.

Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus

Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:

Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset

Каталог пользователей ВКонтакте
https://vk.com/catalog.php

2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom

Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data

Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info

Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity

Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews

InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/

@dataset_ru
источник

AK

Anup Kuplu in Python для анализа данных
полезная статья
источник

AK

Anup Kuplu in Python для анализа данных
Как добиться от моделей глубокого обучения большей генерализации?

Вы можете использовать IRM практически в любой базовой модельной структуре. Однако эта система наиболее эффективна, когда ее применяют к моделям черного ящика, оперирующим большим количеством данных (нейронные сети и их многочисленные разновидности).

Давайте же узнаем, как это работает.

https://nuancesprog.ru/p/13125/


@machinelearning_ru
источник

P

Pavel in Python для анализа данных
@ax_makarov предлагаю забанить товарища выше, посмотрел его сообщения, только репосты)
источник

A

Andrey Denisov in Python для анализа данных
Ну он репостит полезные штуки жеж
источник