Телеграмм чат группы pydata

Ну вот и я не могу понять как сделать так, чтобы он заработал, привычный синтаксис из Постгреса не робит

K in Python для анализа данных

13:22пожаловаться #1

select
first_value(number) over w,
dense_rank() over w
from
(select number, intDiv(number, 1111) p, mod(number, 111) o
from numbers(10000000)) t
window w as (partition by p order by o)
format Null

K in Python для анализа данных

13:24пожаловаться #2

в тестах кликахауса можно найти такой код
https://github.com/ClickHouse/ClickHouse/blob/master/tests/performance/window_functions.xml

13:24пожаловаться #3

Не работает

14:10пожаловаться #4

На window ругается

floMaster in Python для анализа данных

14:13пожаловаться #5

Всем привет. Может кто порекомендовать курсы по анализу данных или DS именно на английском? Вдруг проходили/слышали? Стоимость не важна. Про курсеру в курсе, нужны другие 😁

Tishka17 in Python для анализа данных

14:14пожаловаться #6

Хай. Подскажите, пожалуйтса, а я правильно понимаю, что для сбора метрик sagemaker тупо парсит логи и не надо делать какую-то явную их публикацию?

14:59пожаловаться #7

ОС

если вы готовы немного покопаться в array в кх

SELECT model_type,
arrayJoin(info_ranked) final_,
final_.1 price,
final_.2 model_id,
final_.3 ranked
FROM (
SELECT model_type,
arraySort(groupArray((price, model_id))) sorted_by_price_model,
arrayPushFront(
arrayPopBack(sorted_by_price_model.1), arrayElement(sorted_by_price_model.1, 1)) lag_price,
arrayMap(x, y-> x > y, sorted_by_price_model.1, lag_price) step1,
arrayMap(x->x + 1, step1) rank,
arrayMap(x, y-> (x.1, x.2, y), sorted_by_price_model, rank) info_ranked
FROM (
SELECT all_info.1 model_id,
all_info.2 model_type,
all_info.3 price
FROM (
SELECT[1433, 1434, 1276, 1277, 1288, 1401, 1408] model_id,
['Jet', 'Jet', 'Laser', 'Laser', 'Laser', 'Matrix', 'Matrix'] model_type,
[27000, 29000, 40000, 50000, 40000, 15000, 27000] price,
arrayZip(model_id, model_type, price) info,
arrayJoin(info) all_info
)
) sample_
GROUP BY model_type
)q

17:49пожаловаться #8

ОС

Переслано от Максим

Народ, кто знает как приметь DENSE_RANK в Clickhouse? Либо любой аналог ранга

17:49пожаловаться #9

ОС

Там подзапрос _sample просто для симуляции таблицы

17:50пожаловаться #10

ОС

это аналог
SELECT *, RANK() OVER(PARTITION BY type ORDER BY price) rnk

17:50пожаловаться #11

Спасибо, попробую разобраться в в коде и симуляции

Sofia D in Python для анализа данных

17:57пожаловаться #12

Всем привет. Подскадите, пожалуйста, как рассчитаиь риски на основе результатов логистическрй регрессии (или любой другой модели классификации).

Я так понимаю, что могу предсказать вероятность наступления события. А как можно рассчитать риск события? Или это и есть вероятность?

19:44пожаловаться #13

El in Python для анализа данных

Следуя логике, может быть риск наступления события или противоположный риск, что условное событие не произойдет.

В обоих случаях этот риск и есть вероятность наступления и ненаступления события.

Риск события, это, наверное, в вашем понимании риск того, что
событие НЕ произойдет. Соответственно, этот риск будет равен 100% минус вероятность наступления события.

Если я правильно понял вопрос)

Sofia D in Python для анализа данных

22:50пожаловаться #14

Ох, я пообщалась с коллегой и мне порекомендовали обратиться к sensitivity analysis для того, чтобы разобраться с рисками. Если интересно, могу держать в курсе.

Sergey in Python для анализа данных

22:51пожаловаться #15

2021 August 20

Это понятие не имеет однозначного толкования. Вам бы лучше начать с того, что есть риск для конкретной предметной области, к которой относится задача.

Например, если речь про классификацию, то это вполне может быть вероятность того, что событие отнесено не в ту группу.
А анализ чувствительности, конечно, относится к рискам, вот только в меньшей степени он относится к задаче классификации.

Sofia D in Python для анализа данных

00:47пожаловаться #16

Спасибо!

Lyubov K. in Python для анализа данных

00:49пожаловаться #17

Привет! Подскажите можно прочитать html с сохранением форматирования?

html.fromstring текст даёт, но склеивает все переносы строк

Valerii Mamontov in Python для анализа данных

08:15пожаловаться #18

Привет!
Попробуй так:

# pip install beautifulsoup4
# pip install html5lib
from bs4 import BeautifulSoup

html_text = """
<div class="zn-body__paragraph" data-paragraph-id="paragraph_22039D34-7F3A-6CFD-3C09-4F70518EA836">
In an open letter published in the Lancet medical journal, they argued that a rising number of Covid-19 cases, 
the new <a href="http://www.cnn.com/2021/07/30/health/delta-variant-covid-19-questions-answered/index.html" 
target="_blank">Delta variant</a> 
and the fact that a large part of the UK population was not yet fully vaccinated made the move too risky. </div>
"""

soup = BeautifulSoup(html_text, 'html.parser')
raw_text = soup.get_text()
print(raw_text)

Anup Kuplu in Python для анализа данных

09:25пожаловаться #19

🔍 TOOD: Task-aligned One-stage Object Detection

Github: https://github.com/fcjian/TOOD

Paper: https://arxiv.org/abs/2108.07755v2

Dataset: https://paperswithcode.com/dataset/coco

@ai_machinelearning_big_data