Size: a a a

Python для анализа данных

2021 March 25

SD

Stanislav Demchenko in Python для анализа данных
читать батчами
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Valerii Mamontov
Привет!
1. Можно изменить типы полей в DataFrame, описано тут.
2. Можно использовать библиотеку MODIN, упоминается тут.
3. Я считывал построчно в память 17 миллионов строк:
with open("files/17mln.csv", encoding="utf-8") as file:
   for line in file:
       pass
       # что-то делаю со строкой
Но с моделями то серьезные проблемы. все api рассчитаны на помещение в память.

а как вообще там catboost в кластерной конфигурации clickhouse работает ? Он прям сам умудряется обработать все данные со всех серверов и ему хватает памяти?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
похоже никак.
источник

LK

Lyubov K. in Python для анализа данных
Pavel Zheltouhov
Но с моделями то серьезные проблемы. все api рассчитаны на помещение в память.

а как вообще там catboost в кластерной конфигурации clickhouse работает ? Он прям сам умудряется обработать все данные со всех серверов и ему хватает памяти?
У меня простая кластеризация. Но сatboost тоже спотыкалась ни один раз
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Lyubov K.
У меня простая кластеризация. Но сatboost тоже спотыкалась ни один раз
предлагаю  просто попросить у начальства карточку для amazon aws. и запускать там иногда
источник

SD

Stanislav Demchenko in Python для анализа данных
ставь хадуп, шатай в спарке
источник

VR

Vasily Rozhkov in Python для анализа данных
Stanislav Demchenko
ставь хадуп, шатай в спарке
++
источник

VM

Victoria Mikhailova in Python для анализа данных
Привет 😊

Приходите на очередной неклассический семинар от лаборатории машинного обучения ИТМО!

Вот его программа:  
🔹Новости. Руководитель лаборатории Андрей Фильченков прокомментирует недавние события из мира машинного обучения.
🔹Доклад. Старший научный сотрудник лаборатории и аспирант ИТМО Наталья Ханжина расскажет, какие виды неопределенности бывают в задачах компьютерного зрения, как их оценивать и применять.
🔹Дебаты. После доклада Натальи к ней присоединится PhD и Senior Algorithm Engineer из Huawei Moscow Research Center Евгений Цымбалов, чтобы поспорить, насколько применимы методы оценки неопределенности в индустрии.

👉 Смотрите трансляцию 30 марта в 18:00 на YouTube.
☝️Присоединяйтесь к конференции в Zoom – зарегистрируйтесь до 29 марта 18:00.
источник

YM

Yura Markov in Python для анализа данных
Кто работает в seaborn, подскажите способ как pointplot заставить рисовать transparent точки?
источник

YM

Yura Markov in Python для анализа данных
scatter_kws, plot_kws не помогают
источник

SA

Silver Avast in Python для анализа данных
Кейс: Хабиб vs МакГрегор или Распознавание лиц на Python

https://tproger.ru/articles/kejs-habib-vs-makgregor-ili-raspoznavanie-lic-na-python/

@machinelearning_ru
источник
2021 March 26

🅰

🅰️ртур in Python для анализа данных
Привет!
Подскажите, какой лучше блокнот использовать?

Прохожу курсы... в одном Анаконду предлагают установить, в другом - колаб.

Область задач - анализ данных. Что наиболее популярно?
источник

AD

Artemiy Dubovoy in Python для анализа данных
🅰️ртур
Привет!
Подскажите, какой лучше блокнот использовать?

Прохожу курсы... в одном Анаконду предлагают установить, в другом - колаб.

Область задач - анализ данных. Что наиболее популярно?
Colab = jupyter, только хостед и импрувед бай Гугл. Наверное jupyter самый популярный и есть
источник

A

Andrey Denisov in Python для анализа данных
🅰️ртур
Привет!
Подскажите, какой лучше блокнот использовать?

Прохожу курсы... в одном Анаконду предлагают установить, в другом - колаб.

Область задач - анализ данных. Что наиболее популярно?
Колаб ставить не нужно и для условных курсов он очень удобен.
Тебе выделяется столько-то памяти и проца и внутри них твори что хочешь. Удобно, что можно что-то большое дробить на куски и исполнять по очереди - блок импорта, блок анализа, блок чего_то_там_ещё
источник

A

Andrey Denisov in Python для анализа данных
Единственное, колаб не сильно умеет общаться со всякими хитрыми приложениями - ну это и вряд ли нужно
источник

🅰

🅰️ртур in Python для анализа данных
Спасибо всем за отклик на вопрос. Да, на данном этапе хитрые приложения точно не понадобятся))

Увидел такую сноску по колабу, решил уточнить о каких различиях идёт речь, т.к. оптимизировать я точно пока не умею 👇
источник

🅰

🅰️ртур in Python для анализа данных
источник

H

H in Python для анализа данных
источник

A

Andrey Denisov in Python для анализа данных
Когда у колаба протухает сессия, то нужно библиотеки импортировать заново. В условном пайчарме - один раз установил и всё.
Сессия в колабе протухает чере сколько-то там часов инактива.
Но какая именно оптимизация ещё может быть - хз
источник

С

Сергей in Python для анализа данных
VScode+плагин анаконда = щастье
источник