Size: a a a

2021 October 14

KS

KONAN SILVAIN in Data Engineers
I have a problem with Apache 2.4.7 and Java 8 when I try to connect to a SQL SERVER 2008 database. I also tested SPARK 3.1
источник

KS

KONAN SILVAIN in Data Engineers
com.microsoft.sqlserver.jdbc.SQLServerException : Le pilote n'a pas pu établir une connexion sécurisée avec SQL Server en utilisant le cryptage Secure Sockets Layer (SSL). Erreur : "La version du protocole TLS10 sélectionnée par le serveur n'est pas acceptée par les préférences du client [TLS12]". ClientConnectionId:ee624ef4-3610-4a04-baea-762b2c29a4a5
источник

KS

KONAN SILVAIN in Data Engineers
help me please
источник

RI

Rustam Iksanov in Data Engineers
As I see, you have problem with connection. Try to find option about ssl certificate.
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Уже 20 октября стартует флагманский онлайн-курс
"Data Engineer 9.0". Присоединяйтесь: https://clck.ru/TXLLN

Специально для подписчиков канала действует дополнительная скидка 10% (от цены, указанной на сайте) по промокоду "hadoopusers".

🧑🏻‍💻Приглашаем дата инженеров, администраторов баз данных и менеджеров по развитию продуктов систематизировать свои знания и овладеть новыми востребованными навыками в области дата инжиниринга.

Вас ждет 7-недельная образовательная программа по построению ETL-пайплайнов: Hadoop, Kafka, Spark, Airflow, ElasticSearch и пр:
✔️21 практическое занятие;
✔️10+ современных инструментов по обработке данных;
✔️6 лабораторий-суперачивок.

Обучают Андрей Титов (NVIDIA), Антон Пилипенко (Sbermarket), Егор Матешук (ГПМ Дата) и другая команда преподавателей, не нуждающаяся в дополнительном представлении.

Они поделятся с вами своим бесценным опытом, датасетами из реальной жизни и помогут обойти многие подводные камни.
источник

S

Sebastian in Data Engineers
уже купил
источник

ПБ

Повелитель Бури... in Data Engineers
И что делать? Пробрасывать доп условие и цикл, например по датам?
источник

ИК

Иван Калининский... in Data Engineers
Судя по коду, я бы делал так, я вообще не вижу причин для каких-то доп. условий
источник

РД

Роман Друзык... in Data Engineers
Проходил 8.0 - оч полезно было
источник

K

KGM in Data Engineers
Простите, я не все описать успел

Есть таблица, в которой, допустим, следующие поля:
|column|username|dob|city|username_link|distance|

Следует выполнить self-join для того, чтобы в плоской таблице, были всевозможные кластера по column, дабы выполнить фильтры (city1 =!= city2, к примеру) и далее сравнивать между собой distance, записав в отдельную колонку разницу
источник

K

KGM in Data Engineers
Была попытка группировать, и агрегировать в список структуры (distance, city, ...), но профита не обнаружил
источник

IK

Ivan Krovyakov in Data Engineers
Коллеги, в начале ноября мы делаем технический митап по DataOps с разбором таких технологий, как Hudi, Airflow, Trino, Spark over S3 и опыта их реального использования в онпреме и облаке: судя по первым прогонам, это будет действительно интересно.

Присоединяйтесь :)

https://cloud.yandex.ru/events/460
источник

ИК

Иван Калининский... in Data Engineers
Стало понятнее.

У селф-джоина по одному и тому же полю есть преимущество: таблица и ключ одни и те же, достаточно сделать один exchange. Если никакой предшествующей обработки не было, то нужно сделать так:
val df1 = df.repartition(n, column).as(«right») //указать приемлемый n, если 700 Гб, то можно начать с 10000
val df2 = df1.select(column, user,dob,….).as(«left»)
val df3 = df1.join(df2,Seq(«column»))

df3 будет содержать поля right.column, right.user и так далее, а ещё те же поля, но квалифицированные как left: left.column, left.user

Работать должно чуть быстрее))
источник

ИК

Иван Калининский... in Data Engineers
Вот и я подумал, что это более интересный подход, но после группировки нужно делать какой-нибудь mapPartitions, и работать со списками во вложенных циклах. Пока мне неочевидно, будет лучше или нет
источник

AZ

Anton Zadorozhniy in Data Engineers
Датаопс? Это разве не всякие dagster, prefect, dbt и друзья?
источник

K

KrivdaTheTriewe in Data Engineers
О, никитос, Я бы сходил
источник

IK

Ivan Krovyakov in Data Engineers
Это все равно, что говорить, будто девопс = кубер и гитлаб имхо: места хватит всем
источник

IK

Ivan Krovyakov in Data Engineers
Тот же Gartner говорит в своем глоссарии как о практике + наборе поддерживающих технологий, например: ребята из DataKitchen просто сильнее всех раскручивают тему
https://www.gartner.com/en/information-technology/glossary/dataops
источник

ИК

Иван Калининский... in Data Engineers
Оффлайн? Как у вас с физической дистанцией? Точно места хватит всем?
источник