Size: a a a

Python для анализа данных

2020 November 27

R

Ruslan in Python для анализа данных
Natalya Davydova
Есть показатель с вариантами типа "далеко", "близко", "на среднем расстоянии". И есть предположение, что от него зависит измеримый количественный показатель. Мне нужно проверить данную гипотезу.
Звучит как дисперсионный анализ
источник

R

Ruslan in Python для анализа данных
Если прям нужен стат метод
источник

R

Ruslan in Python для анализа данных
Ну либо взять если есть возможность показатель в динамике и проверить
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Алексей Макаров
Ну вот если сейчас всё работает сравнительно неплохо и позволяет какие-то решения принимать, то тогда можно попробовать уже с LDA. Посмотреть что будет получатся

А дальше можно и на какие-то word embedding модели посмотреть, например, word2vec. Вот ещё статейка, где можно посмотреть примеры topic modelling с использованием word2vec
что-то я не вижу в этой статье упоминания word2vec. Да и на память не припоминаю как его вместе с lda использовать. А как?
источник

АМ

Алексей Макаров... in Python для анализа данных
Pavel Zheltouhov
что-то я не вижу в этой статье упоминания word2vec. Да и на память не припоминаю как его вместе с lda использовать. А как?
Там юзается gensim, не совсем word2vec да, тут я ошибся, потому что в той статье, что я кинул конечно не word embeddings
источник

IS

Ivan Samorukov in Python для анализа данных
Если кому пригодится)
источник

IS

Ivan Samorukov in Python для анализа данных
Учишься, учишься и —ХОП! — получаешь призы

К Чёрной пятнице ребята из Практикума сделали конкурс: регистрируйтесь на курсы, проходите вводную часть бесплатно до 3 декабря и автоматически становитесь участником конкурса.

В призах:
• Мощный ноутбук, чтобы писать код.
• Яндекс.Станция, чтобы нейросеть вам помогала.
• Беспроводные наушники для прослушивания подкаста «Запуск завтра».
• Футболка Практикума.
• Трёхмесячная подписка на Яндекс.Плюс.

В конкурсе принимают участие: аналитики данных, веб-разработчики, Python-разработчики, специалисты по машинному обучению, инженеры по тестированию и дизайнеры интерфейсов.
источник
2020 November 28

KM

Konstantin Mohov in Python для анализа данных
Признавайтесь, кто ссылку чата куда кинул ?)))
Welcome !
источник
2020 November 29

s

ssv in Python для анализа данных
Кто объяснит, почему генерация в список бысртее, чем в массив?
источник

s

ssv in Python для анализа данных
%timeit listcol = [x for x in range(0,n)]
%timeit genexp = (x for x in range(0,n))
%timeit arr = ar('i', (x for x in range(0,n)))
источник

s

ssv in Python для анализа данных
138 ms ± 2.09 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
879 ns ± 7.72 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
250 ms ± 2.47 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
источник

s

ssv in Python для анализа данных
По занимаемой памяти еще как-то понятно
источник

s

ssv in Python для анализа данных
print(sys.getsizeof(listcol), sys.getsizeof(genexp), sys.getsizeof(arr))
источник

s

ssv in Python для анализа данных
8697464 88 4091932
источник

s

ssv in Python для анализа данных
Мол там плоское такое все и типизированное, но почему просадка по скорости?
источник

A

Alexander in Python для анализа данных
Подскажите, пжлста, как внутри каждого региона присвоить ид всем округам от 1?
источник

A

Alexander in Python для анализа данных
Через rank что-то не то выдает
источник

A

Anton in Python для анализа данных
Может попробовать преобразовать таблицу через unstack и ввести индексы?
источник

S

Slavik in Python для анализа данных
Можно добавить колонку id  через резет индекс
источник

S

Slavik in Python для анализа данных
Или создать столбец id и задать просто ему значения от 1 и до бесконечности) значения у каждого региона проставятся по порядку)
источник