Size: a a a

Python для анализа данных

2020 November 12

PZ

Pavel Zheltouhov in Python для анализа данных
Slach
ну вот у меня три координаты
EBS type  EBS Size GiB  File Size GiB
и четвертая это какой нибудь Read Only IOPS
и вроде scatter plot подходит,

но я чего то ни в data studio ни в spreadsheet не вижу как там получается 4 координаты =(

извините я чайник оно в голове у меня нормально укладывается, потому что я сам эти данные мерил и понимаю что они из себя представляют, но визуализацию я никогда не делал
но  ведь кучу людей это не напрягает. многомерные данные - это для машин.

а в чем смысл этого действия ?
вижу тут какие-то текущие характеристики дисков.
ну диски и диски. что выяснить то хочется?
источник

S

Slach in Python для анализа данных
Pavel Zheltouhov
но  ведь кучу людей это не напрягает. многомерные данные - это для машин.

а в чем смысл этого действия ?
вижу тут какие-то текущие характеристики дисков.
ну диски и диски. что выяснить то хочется?
=) ок. показать как разные типы дисков в зависимости от размера тома  и размера файла в томе, изменяют свою производительность
IOPS это кол-во операций в секунду
BW это байт в секунду
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Slach
=) ок. показать как разные типы дисков в зависимости от размера тома  и размера файла в томе, изменяют свою производительность
IOPS это кол-во операций в секунду
BW это байт в секунду
загрузите в Orange. выберите Correlations
источник

PZ

Pavel Zheltouhov in Python для анализа данных
задача как запускаемое Приложение тут есть или чисто разведка?
источник

S

Slach in Python для анализа данных
Pavel Zheltouhov
но  ведь кучу людей это не напрягает. многомерные данные - это для машин.

а в чем смысл этого действия ?
вижу тут какие-то текущие характеристики дисков.
ну диски и диски. что выяснить то хочется?
по факту там кластеризация с некоторыми аномалиями
например излишне высокая latency на sc1 дисках

или вместо ожидаемых 20000 IOPS для io1 дисков для терабайтного volume получили всего 15700 IOPS
это правда потом обяснимо
источник

S

Slach in Python для анализа данных
Pavel Zheltouhov
задача как запускаемое Приложение тут есть или чисто разведка?
чисто отчет разведка
источник

S

Slach in Python для анализа данных
я думаю что
https://plotly.com/python/3d-scatter-plots/
и ipynb в github будет достаточно
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Slach
Народ. а подкиньте для чайника линков как лучше визуализировать многомерные данные?

https://docs.google.com/spreadsheets/d/1y5Tz3rter6afMeeO2K0akUi4_LC7NuqvJqEO2yTwmmI/view

у меня есть категориальные измерения типа
EBS type  EBS Size GiB  File Size GiB

и числовые показатели типа
Read only IOPS  Write only IOPS  Read only BW MiB/s

как мне между собой разные категории сравнить?
отдельный график на каждый числовой показатель
а какой?
scatter chart какой нибудь?
Так это амазон ebs? Тест по одному разу? Одинаковый объем работы?
Мне кажется надо неоднократно запускать.
А по поводу визуализации поддерживаю остальных - не нужно это.
Постройте несколько графиков.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Коэффициенты линейной регрессии посчитайте  что-ли
источник

S

Slach in Python для анализа данных
Pavel Zheltouhov
Так это амазон ebs? Тест по одному разу? Одинаковый объем работы?
Мне кажется надо неоднократно запускать.
А по поводу визуализации поддерживаю остальных - не нужно это.
Постройте несколько графиков.
=) данные будут которые неоднократные
там просто может уйти пару дней для получения... этих данных пока достаточно
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Slach
=) данные будут которые неоднократные
там просто может уйти пару дней для получения... этих данных пока достаточно
держите.
Преступление раскрыто.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
для типа io размер тома сильно влияет на производительность.
для остальных типов влияет тоже, но плохо  выражено.
gp2 чето вообще заваливается в обратную зависимость. но тут скорее случайный выброс.
(с коэффициентами корелляции понятно почему  так странно  - там мультиколлинеарность есть. надо бы поубирать лишние колонки )

по-моему так Амазон и обещал.
источник

S

Slach in Python для анализа данных
Pavel Zheltouhov
держите.
Преступление раскрыто.
спасибо большое
источник

S

Slach in Python для анализа данных
а кто нибудь может подсказать просмотрщик публичного ipynb который нормально plotly.express поддерживает? чтобы ему тупо ipynb можно было скормить?
источник

KM

Konstantin Mohov in Python для анализа данных
Slach
а кто нибудь может подсказать просмотрщик публичного ipynb который нормально plotly.express поддерживает? чтобы ему тупо ipynb можно было скормить?
В колаб не пробовали? Там можно скормить ссылку на гитхаб
источник

LT

Lan Tal in Python для анализа данных
Slach
а кто нибудь может подсказать просмотрщик публичного ipynb который нормально plotly.express поддерживает? чтобы ему тупо ipynb можно было скормить?
nbviewer вроде называется. На гитхаб заливаешь ноутбук, в нбвьюер ссылку пихаешь
источник

S

Slach in Python для анализа данных
Lan Tal
nbviewer вроде называется. На гитхаб заливаешь ноутбук, в нбвьюер ссылку пихаешь
нет, оно plotly не поддерживает
источник

LT

Lan Tal in Python для анализа данных
Поддерживает
источник

S

Slach in Python для анализа данных
Konstantin Mohov
В колаб не пробовали? Там можно скормить ссылку на гитхаб
спасибо большое
https://colab.research.google.com/drive/1817n8jav8U-4aqtABW9iurSW6JOM766Z

получилось
источник

LT

Lan Tal in Python для анализа данных
Даже сложные визуализации с вкладками
источник