Телеграмм чат группы bigdata

Как трактовать следующий вопрос : "некоторые параметры(колонки) датасета имеют разную размерность в зависимости, допустим, от вида модели телефона (самсунг или эппл), необходимо привести параметры (колонки) в одинаковую размерность"? То есть необходимо масштабировать признаки или что-то другое?

источник

17:14пожаловаться #6

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning

Скорее привести их к нормальному виду, обобщить характеристику признака(ов)

источник

17:21пожаловаться #7

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning

Мсье знакомо понятие нормализация?

источник

17:22пожаловаться #8

xxxvid in AI / Big Data / Machine Learning

Да

источник

17:22пожаловаться #9

xxxvid in AI / Big Data / Machine Learning

Я понял о чем речь

источник

17:22пожаловаться #10

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning

Ну вот это по всей видимости где-то из той области :)

источник

17:22пожаловаться #11

xxxvid in AI / Big Data / Machine Learning

То есть масштабировать признаки?

источник

17:22пожаловаться #12

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning

Хотя контекст может отличаться. Но да, в каком-то смысле масштабировать, главное чтобы признаки одинаково измерялись в различающихся параметрах, насколько я понял

источник

17:23пожаловаться #13

xxxvid in AI / Big Data / Machine Learning

Потому что я тоже не понял данного вопроса, как может отличаться размер колонок в зависимости от какого-то фактора, если датасет это матрица n×m и она в принципе правильная

источник

17:26пожаловаться #14

Marat in AI / Big Data / Machine Learning

xxxvid

рискну предположить, что привести к общей размерности
не знаю, что там у телефонов, но например, у нас есть дата фрейм с инфой о недвижимости из трёх колонок: страна, где недвижка, адрес, и площадь
в зависимости от страны у нас площадь будет измеряться в разных величинах: например футы для США и метры для России
соответственно, нужно привести площади к одной из этих размерностией

источник

17:26пожаловаться #15

КБ

Константин Белов in AI / Big Data / Machine Learning

ребята, а анаконду можно запустить внутри jupyter notebook, если ты на сервере ?

источник

17:27пожаловаться #16

Nikolay in AI / Big Data / Machine Learning

ребят, подскажите, пожалуйста: какой лучше хранилище использовать для хранения big data? формат hdf5, весят >1гб, возможность работать с большим количеством таких файлов (~1000 файлов)

источник

17:51пожаловаться #17

Stepan in AI / Big Data / Machine Learning

Добрый день. Подскажите зеленому участнику сообщества)
Подгружаю данные, вижу что данные имеют 5 млн. строк и 400 столбцов. С чего начать разведывательный анализ этих данных , как подступится ко всем этим признакам?

источник

18:49пожаловаться #18

Mash-Nyash in AI / Big Data / Machine Learning

В зависимости от задачи и алгоритма обучения, можно заранее выкинуть столбцы, не релевантные для конкретной классификации/проблемы. Можно запилить регрессию и посмотреть на коэффициенты переменных, плюс correlation matrix plot.

источник

18:58пожаловаться #19

Mash-Nyash in AI / Big Data / Machine Learning

Либо уменьшить количество через pca

источник

18:58пожаловаться #20