Size: a a a

Python для анализа данных

2021 August 19

М

Максим in Python для анализа данных
Ну вот и я не могу понять как сделать так, чтобы он заработал, привычный синтаксис из Постгреса не робит
источник

K

K in Python для анализа данных
select
           first_value(number) over w,
           dense_rank() over w
       from
           (select number, intDiv(number, 1111) p, mod(number, 111) o
               from numbers(10000000)) t
       window w as (partition by p order by o)
       format Null
источник

K

K in Python для анализа данных
в тестах кликахауса можно найти такой код
https://github.com/ClickHouse/ClickHouse/blob/master/tests/performance/window_functions.xml
источник

М

Максим in Python для анализа данных
Не работает
источник

М

Максим in Python для анализа данных
На window ругается
источник

f

floMaster in Python для анализа данных
Всем привет. Может кто порекомендовать курсы по анализу данных или DS именно на английском? Вдруг проходили/слышали? Стоимость не важна. Про курсеру в курсе, нужны другие 😁
источник

T

Tishka17 in Python для анализа данных
Хай. Подскажите, пожалуйтса, а я правильно понимаю, что для сбора метрик sagemaker тупо парсит логи и не надо делать какую-то явную их публикацию?
источник

ОС

Оксана Савицька... in Python для анализа данных
если вы готовы немного покопаться в array в кх

SELECT model_type,
      arrayJoin(info_ranked) final_,
      final_.1 price,
      final_.2 model_id,
      final_.3 ranked
FROM (
     SELECT model_type,
            arraySort(groupArray((price, model_id)))                                                 sorted_by_price_model,
            arrayPushFront(
                    arrayPopBack(sorted_by_price_model.1), arrayElement(sorted_by_price_model.1, 1)) lag_price,
            arrayMap(x, y-> x > y, sorted_by_price_model.1, lag_price)                               step1,
            arrayMap(x->x + 1, step1)                                                                rank,
            arrayMap(x, y-> (x.1, x.2, y), sorted_by_price_model, rank) info_ranked
     FROM (
         SELECT all_info.1 model_id,
                all_info.2 model_type,
                all_info.3 price
         FROM (
               SELECT[1433, 1434, 1276, 1277, 1288, 1401, 1408]                    model_id,
                     ['Jet', 'Jet', 'Laser', 'Laser', 'Laser', 'Matrix', 'Matrix'] model_type,
                     [27000, 29000, 40000, 50000, 40000, 15000, 27000]             price,
                     arrayZip(model_id, model_type, price)                         info,
                     arrayJoin(info)                                               all_info
             )
         ) sample_
     GROUP BY model_type
   )q
источник

ОС

Оксана Савицька... in Python для анализа данных
Переслано от Максим
Народ, кто знает как приметь DENSE_RANK в Clickhouse? Либо любой аналог ранга
источник

ОС

Оксана Савицька... in Python для анализа данных
Там подзапрос _sample просто для симуляции таблицы
источник

ОС

Оксана Савицька... in Python для анализа данных
это аналог
SELECT *, RANK() OVER(PARTITION BY type ORDER BY price) rnk
источник

М

Максим in Python для анализа данных
Спасибо, попробую разобраться в в коде и симуляции
источник

SD

Sofia D in Python для анализа данных
Всем привет. Подскадите, пожалуйста, как рассчитаиь риски на основе результатов логистическрй регрессии (или любой другой модели классификации).

Я так понимаю, что могу предсказать вероятность наступления события. А как можно рассчитать риск события? Или это и есть вероятность?
источник

E

El in Python для анализа данных
Следуя логике, может быть риск наступления события или противоположный риск, что условное событие не произойдет.

В обоих случаях этот риск и есть вероятность наступления и ненаступления события.

Риск события, это, наверное, в вашем понимании риск того, что
событие НЕ произойдет. Соответственно, этот риск будет равен 100% минус вероятность наступления события.

Если я правильно понял вопрос)
источник

SD

Sofia D in Python для анализа данных
Ох, я пообщалась с коллегой и мне порекомендовали обратиться к sensitivity analysis для того, чтобы разобраться с рисками. Если интересно, могу держать в курсе.
источник
2021 August 20

S

Sergey in Python для анализа данных
Это понятие не имеет однозначного толкования. Вам бы лучше начать с того, что есть риск для конкретной предметной области, к которой относится задача.

Например, если речь про классификацию, то это вполне может быть вероятность того, что событие отнесено не в ту группу.
А анализ чувствительности, конечно, относится к рискам, вот только в меньшей степени он относится к задаче классификации.
источник

SD

Sofia D in Python для анализа данных
Спасибо!
источник

LK

Lyubov K. in Python для анализа данных
Привет! Подскажите можно прочитать html с сохранением форматирования?

html.fromstring текст даёт, но склеивает все переносы строк
источник

VM

Valerii Mamontov in Python для анализа данных
Привет!
Попробуй так:

# pip install beautifulsoup4
# pip install html5lib
from bs4 import BeautifulSoup

html_text = """
<div class="zn-body__paragraph" data-paragraph-id="paragraph_22039D34-7F3A-6CFD-3C09-4F70518EA836">
In an open letter published in the Lancet medical journal, they argued that a rising number of Covid-19 cases,
the new <a href="http://www.cnn.com/2021/07/30/health/delta-variant-covid-19-questions-answered/index.html"
target="_blank">Delta variant</a>
and the fact that a large part of the UK population was not yet fully vaccinated made the move too risky. </div>
"""

soup = BeautifulSoup(html_text, 'html.parser')
raw_text = soup.get_text()
print(raw_text)
источник

AK

Anup Kuplu in Python для анализа данных
источник