Size: a a a

2020 September 30

VK

Vladimir K. in Data Engineers
Коллеги, как добавить в существующий коннектор kafka новую таблицу? Я попробовал остановить коннектор, отправить PUT запрос. В конфиге таблица в whitelist появилась, но топик для неё не создался. Менять snapshot.mode? А как-то безболезненнее возможно?
debezium 1.2
postgresql 11
kafka 2.6.0
источник

SS

Sergey Sheremeta in Data Engineers
Sergey Sheremeta
возможно, уже ответили...
я, когда нужно было выгружать большие порции из партиционированных таблиц Оракла в Ходуб, делал так:
1) на стороне Оракла
CREATE TABLE DAILY_SHIT_EXT
ORGANIZATION EXTERNAL (
 TYPE ORACLE_DATAPUMP
 DEFAULT DIRECTORY HADOOP_DIR
 LOCATION ('daily_piece_of_shit_1.dmp', 'daily_piece_of_shit_2.dmp')
)
PARALLEL 2
AS SELECT * FROM large_shit PARTITION (sub_shit);
2) средствами секретных баш-техник в виде ssh/scp и hdfs cli перекидывал выгружаемые дампы 'daily_piece_of_shit_1.dmp', 'daily_piece_of_shit_2.dmp' в HDFS
3) создавал в Hive внешнюю таблицу с DatapumpStorageHandler и извлекал из нее в целевую паркет-таблицу
нихрена меня глюкануло... некрофилия прямо. почему-то Телеграм открыл ленту сообщений за март, зацепился глазом за вопрос Кривды по выгрузке из Оракла.
прошу простить!
источник

А

Алексей in Data Engineers
Sergey Sheremeta
нихрена меня глюкануло... некрофилия прямо. почему-то Телеграм открыл ленту сообщений за март, зацепился глазом за вопрос Кривды по выгрузке из Оракла.
прошу простить!
а что если нет купленного бигдата sql, то так можно делать?
источник

SS

Sergey Sheremeta in Data Engineers
разумеется, нельзя!!!!!!!!!
источник

А

Алексей in Data Engineers
эх
источник

А

Алексей in Data Engineers
а dmp это бинарный формат?
источник

N

Nikita Blagodarnyy in Data Engineers
Алексей
а dmp это бинарный формат?
да, но можно в текстовый дампиться.
источник

N

Nikita Blagodarnyy in Data Engineers
Ruslan515 Y
нашел, но он 2005 года выпуска))
так на что тебе книжка? иди на sql-ex и все сразу вспомнишь.
источник

N

Nikita Blagodarnyy in Data Engineers
Nikita Blagodarnyy
так на что тебе книжка? иди на sql-ex и все сразу вспомнишь.
тебе ж наверное не надо внутреннее устройство хэш-кластеризованных таблиц.
источник

TM

Toemik Mnemonic in Data Engineers
Всем привет. Кто то сталкивался со следующей проблемой: pd.DataFrame имеет колонку datetime со стилем %dd.%mm.%yyyy. Т.е: 03.08.2020. после инсерта в SQL Server встречаю 08.03.2020. Проблема нелинейная, встречается для некоторых дат. осталньые инсертятся корректно. Куда смотреть?
источник

AE

Alexey Evdokimov in Data Engineers
а локаль для коннекта какая выставлена?
источник

TM

Toemik Mnemonic in Data Engineers
Alexey Evdokimov
а локаль для коннекта какая выставлена?
SQL_Latin1_General_CP1_CI_AS
источник

AE

Alexey Evdokimov in Data Engineers
это collation, оно про сортировку строк только. формат парсинга даты не задаёт. надо смотреть именно локаль. какая используется на стороне драйвера и стороне сервера?
источник

AE

Alexey Evdokimov in Data Engineers
источник

AE

Alexey Evdokimov in Data Engineers
(есть ещё SET DATEFORMAT но не факт что будет работать)
источник

TM

Toemik Mnemonic in Data Engineers
спасибо, иду пока путем SET DATEFORMAT. За инфу спасибо, по результатам отпишусь.
источник

TM

Toemik Mnemonic in Data Engineers
@workales а не знаешь как можно посмотреть локаль которую sqlalchemy из pandas использует для SQL Server сессии ?
источник

AE

Alexey Evdokimov in Data Engineers
подозреваю что та же самая, которая у юзера, под которым запускается пандас
источник

AE

Alexey Evdokimov in Data Engineers
я в своё время здорово наелся проблем с sql server, когда клиент был с русской локалью, а сервер с US %) там ещё и десятичный разделитель разный, не тока формат даты
источник

TM

Toemik Mnemonic in Data Engineers
в таком случае вероятность такая да есть, что клиент русский. спасибо
источник