Size: a a a

Python для анализа данных

2021 January 08

ВО

Валерия Остапенко... in Python для анализа данных
Работаем с keras, tensorflow
источник

AK

Alex K in Python для анализа данных
Валерия Остапенко
Конечно есть ещё курсовая и диплом, на котором ты измучаешься, но вобьёшь в себя темы поглубже. С остальным подозреваю что да, прийдется заново.
Как я понимаю, при трудоустройстве, ты ищешь интересные для себя темы. Например, распознавание изображений. Глубоко ее изучаешь и вперёд
Мне сложно сейчас судить, я не работала в этой сфере вообще.
Но то, что я буду пересматривать темы, это точно.
Конечно есть базовые принципы работы с нейронками, но для каждой тематики есть свои инструменты. Их оч много.
понял, спасибо)
источник

DD

DOMENIC Derek in Python для анализа данных
источник

РЧ

Руслан Черненко... in Python для анализа данных
DOMENIC Derek
И не надоело ещё. Наверное уже и ипотеку из расчёта что биток вырастет до сотни взяли. Как знаменитая реклама "я не халявщик, а партнёр"
источник

А

Алексей in Python для анализа данных
Всем привет.
Есть задача: получить вымышленный датасет на основании имеющегося (из исходного получить тенденции и зависимости)
Исходный файл содержит информацию о продажах с детализацией до каждой позиции в чеке.
Я правильно понимаю, что мне смотреть в сторону нейросетей?
источник

VO

Valentin Osadchii in Python для анализа данных
Алексей
Всем привет.
Есть задача: получить вымышленный датасет на основании имеющегося (из исходного получить тенденции и зависимости)
Исходный файл содержит информацию о продажах с детализацией до каждой позиции в чеке.
Я правильно понимаю, что мне смотреть в сторону нейросетей?
Я не спец, но наверняка в sklearn есть модули анонимизации/маскировки данных
источник

А

Алексей in Python для анализа данных
Valentin Osadchii
Я не спец, но наверняка в sklearn есть модули анонимизации/маскировки данных
Я уже писал функцию для маскировки с возвращением мапы. Задача сделать датасет похожий на правду и что бы новые данные сами генерились.
источник

А

Алексей in Python для анализа данных
Набросал простой алгоритм на основании данных из Экселя. Там все на рандоме поэтому иногда данные не очень похожи на правду.
источник

VO

Valentin Osadchii in Python для анализа данных
Ну самый топорный вариант - сначала выявить закономерности в данных на основании регрессии, потом генерировать данные на основании полученного уравнения и забивать результат шумами.
источник

VO

Valentin Osadchii in Python для анализа данных
Или как вариант сделать маскировку + бутсрэпинг для создания схожей выборки
источник

I

Igor in Python для анализа данных
Таким не занимался, но возможно нужно посмотреть распределение признаков+построить граф взаимосвязи признаков (факторный анализ или регрессионный) и на основании этого построить случайный процесс. То есть берём признак с определенными параметрами, потом берём loc этого распределение умножаем на коеф частичной корреляции и делаем это параметром loc для другого признака и т.д
источник

I

Igor in Python для анализа данных
Параметры разброса оценить по датасету
источник

VO

Valentin Osadchii in Python для анализа данных
Igor
Таким не занимался, но возможно нужно посмотреть распределение признаков+построить граф взаимосвязи признаков (факторный анализ или регрессионный) и на основании этого построить случайный процесс. То есть берём признак с определенными параметрами, потом берём loc этого распределение умножаем на коеф частичной корреляции и делаем это параметром loc для другого признака и т.д
В этом случае можно отъехать сильно в сторону от исходных данных, разве нет?последовательный переход между признаками приведет к накоплению смещения.
источник

I

Igor in Python для анализа данных
Не совсем. У тебя в данном случае параметр мат.ожидания не случайный, а детерминированный. То есть одна переменная не будет зависеть от дисперсии другой, а только от мат.ожидания.
источник

VO

Valentin Osadchii in Python для анализа данных
Ну выходит что в общих словах выхода два - монтекарло или бутсрэпинг :)
источник

А

Алексей in Python для анализа данных
Если честно понятно что делать и попытался сделать это в эксельке + рандом. И закономерности выявлены. Внутри недели есть профиль продаж, продажи внутри дня отличаются, пн-пт один профиль, сб-вс другой.
Вот теперь непонятно как это сделать... С чего начать? С ML ещё не сталкивался. Только pandas и BI
источник

А

Алексей in Python для анализа данных
Плюс ко всему точки продаж отличаются друг от друга. И в некоторых случаях кардинально.
источник
2021 January 09

SZ

Serge Zemskov in Python для анализа данных
Может вам просто категориальные переменные обфусцировать, а числа оставить, как есть

https://stackoverflow.com/questions/7488995/python-efficient-obfuscation-of-string/7489718
источник

I

Igor in Python для анализа данных
Так говорится же о генерации, а не об обфускации))
источник

ЕО

Егор Овчинников... in Python для анализа данных
Всем привет! Напомните пожалуйста, что-то туплю, как можно подсчитать сумму по каждому индексу?
источник