Size: a a a

2021 July 25

K

Kid in Data Engineers
from airflow import DAG
from airflow.operators.bash_operator import BashOperator
from airflow.operators.python_operator import PythonOperator
from datetime import datetime, timedelta

import clickhouse_driver as ch
from typing import Tuple, Dict, Union, List, Optional
from collections import namedtuple

вот первые строки файла, дальше он и не идет выполняться
источник

C

Crysalis in Data Engineers
Дак драйвер-то стоит? Выглядит так, что нет
источник

C

Crysalis in Data Engineers
Очевидное же
источник

D

Dmitriy in Data Engineers
&& pip install apache-airflow[celery,slack,postgres,hive,jdbc,mysql,mssql,ssh,virtualenv${AIRFLOW_DEPS:+,}${AIRFLOW_DEPS}]==${AIRFLOW_VERSION} \

# Yours packages
&& pip install clickhouse_driver \

у меня вот так впилен в Dockerfile попробуйте пересобрать
источник

D

Dmitriy in Data Engineers
так и есть
источник

C

Crysalis in Data Engineers
Питон какой версии? Может не для той ставишь драйвер
источник

K

Kid in Data Engineers
я руками его(драйвер) внутри стравлю и ничего не меняется
захожу в python3, выполняю import clickhouse_driver. Все норм, без ошибок. DAG все равно с ошибкой(
источник

C

Crysalis in Data Engineers
Пип3 не равно пип
источник

K

Kid in Data Engineers
знаю, ставлю правильно. из консоли доступ к драйверу имею
источник

GP

Grigory Pomadchin in Data Engineers
Не на тот петон показывает наверн, python -m pip install попробуй
источник
2021 July 26

e

er@essbase.ru in Data Engineers
Все что нужно знать про учебку от OTUS
источник

D

Dmitriy in Data Engineers
Я прошёл у них 2 курса
источник

D

Dmitriy in Data Engineers
Обычный гикбоейн
источник

D

Dmitriy in Data Engineers
Но маркетинг на старте был хороший
источник

АЖ

Андрей Жуков... in Data Engineers
источник

AD

Apache DOG™ in Data Engineers
Ну примерно
источник

AD

Apache DOG™ in Data Engineers
Я там вел один курс 2 семестра, дезорганизация мне не понравилась
источник

A

Alex in Data Engineers
вопрос со звёздочкой:

кто-то запускал impala 4.0 (или предыдущую версию) с apache hive 3.1 ?

поделитесь патчами =(
клоудера в свой хайв залила вагон бекпортов с 3.2/4.0/master

поэтому hive-metastore-client от клоудеры не работает с апачевским (нету вызовов на стороне сервера)
а апачевский клиент не работает уже с самой импалой (нету нужных методов в java классах)

поддержку клиентов hive 2.x они дропнули
источник

A

Aleksandr in Data Engineers
Всем привет. Есть спарк джоба и есть таблица большая таблица (35 млн записей), к которой джойнятся ~10 других мелких таблиц (самая большая из них 50к записей, остальные по 1-10к). Если убрать эти джойны, то время работы джобы уменьшается на 10 минут. В спарк плане все джойны являются broadcast. Вопрос: адекватное ли это время и можно ли это как-то оптимизировать? и что может являться причиной такого поведения? смущает что приджойнить 10 мелких таблиц занимает 10 минут
источник

🤔😊

🤔 😊 in Data Engineers
Если это броадкаст – то вполне адекватно. 10 табличек по ±25к записей грузятся на все ноды, 10 минут для этого вроде норм.  А 10 минут – это много или мало?
источник