Size: a a a

2020 December 11

SB

Saveliy Belkin in Data Engineers
Нужен совет, как вы организуете metadata management, каким софтом пользуютись и почему. Мы используем notion.so но уже его переросли, заранее спасибо.
источник

PA

Panchenko Andrey in Data Engineers
Ruslan
привет, ребята. совсем недавно начал осваивать R, пишу простой скрипт, но не могу получить нужный результат. может кто-нибудь помочь?
я могу
источник

PA

Panchenko Andrey in Data Engineers
что такое?
источник

PA

Panchenko Andrey in Data Engineers
Anton Zadorozhniy
и рстудио с шайни просто нереально круты, аналогов в питоне нет
как это нет? а плотливский ДЭШ?
источник

R

Ruslan in Data Engineers
я уже сам разобрался, спасибо
источник

PA

Panchenko Andrey in Data Engineers
хотя  сам много пилил именно на шайни
источник

PA

Panchenko Andrey in Data Engineers
Alex
Те же мастадонты говорят:

У Р есть один большой плюс и  один большой минус

Плюс:
Он разрабатывался статистами для статистики

Минус:
Он разрабатывался статистами для статистики
интересно что они щас говорят?
источник

AZ

Anton Zadorozhniy in Data Engineers
Panchenko Andrey
как это нет? а плотливский ДЭШ?
Лучше ужасный конец чем ужас без конца
источник

PA

Panchenko Andrey in Data Engineers
Anton Zadorozhniy
Лучше ужасный конец чем ужас без конца
согласен)
источник

PA

Panchenko Andrey in Data Engineers
я могу много за R сказать по скорости расчетов пайтону не уступает
источник

AZ

Anton Zadorozhniy in Data Engineers
Тогда вот ещё рмаркдаун, что в питоне является аналогом?
источник

PA

Panchenko Andrey in Data Engineers
в юпитере же тожно можно херачить
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
Тогда вот ещё рмаркдаун, что в питоне является аналогом?
обычный jupyter
источник

PA

Panchenko Andrey in Data Engineers
маркдаун это не Р технология
источник

AS

Andrey Smirnov in Data Engineers
Panchenko Andrey
я могу много за R сказать по скорости расчетов пайтону не уступает
только надо все писать векторном формате, любой ручной мап, хана
источник

PA

Panchenko Andrey in Data Engineers
Andrey Smirnov
только надо все писать векторном формате, любой ручной мап, хана
не совсем понимаю о чем вы?
что конкретно у вас медленно работает?
источник

PA

Panchenko Andrey in Data Engineers
он по умлочанию все векторизирует
источник

ИК

Иван Калининский... in Data Engineers
Alex
Напишите партишинер для датафрейма :)
Таки в среду написал такой партишенер, работает

пришлось сделать классы на основе:
org.apache.spark.sql.catalyst.plans.logical.RepartitionByExpression //логический план
org.apache.spark.sql.catalyst.plans.physical.HashPartitioning //физический план
org.apache.spark.sql.execution.SparkStrategy //для инъекции SparkSessionExtensions
org.apache.spark.sql.execution.exchange.ShuffleExchangeExec //выполнение
и еще один impicit class, чтобы вызывать метод, а не оборачивать в функцию
На тестах работает хорошо, проверю на данных

Смотрел ресурс https://www.waitingforcode.com/apache-spark-sql
Там много статей про расширение Spark, но подача не так чтобы очень доходчивая
источник

PA

Panchenko Andrey in Data Engineers
Andrey Smirnov
только надо все писать векторном формате, любой ручной мап, хана
есть отличные либы dplyr, data.table последняя вообще фигачит как глухонимая потому что по умолчанию использует несколько ядер
источник

AZ

Anton Zadorozhniy in Data Engineers
Panchenko Andrey
в юпитере же тожно можно херачить
Только вот юпитер это json который в гите выглядит страшно (рмаркдаун это текстовый файл), в нем многоязычность через одно место делается, для показа нужен сервер
источник