Size: a a a

2019 November 21

N

Nika in Data Engineers
Так и чего, 1 сервер под 3 мастера и ещё 1 для слейвов это ок?
источник

AS

Andrey Smirnov in Data Engineers
Vladislav 👻 Shishkov
да, но никто не мешает тебе поднять больше
типа кластер из нескольких инстанцев  на одной машине?
источник

AS

Andrey Smirnov in Data Engineers
Евгений Глотов
Собеседование раньше: "нам нужны положительные рекомендации с трёх ваших последних мест работы", собеседование сейчас: "этот чувак ответил что-то в чатике про спарк, надо брать"😆
за 15 лет и примерно столько же собеседований, референцы попросили в паре-тройке мест, и только в одном реально позвонили по ним :)
источник

OA

Oleg Agapov in Data Engineers
рубрика "сраный sqoop"
импортирую табличку из mysql. на серваке базы стоит таймзона Europe/Warsaw, при импорте скупом указываю в строке коннекта '?serverTimezone=Europe/Warsaw'

падает, зараза, при импорте марта 2019, когда был перевод часов с ошибками типа:
Caused by: java.sql.SQLException: HOUR_OF_DAY: 2 -> 3
at com.mysql.cj.jdbc.exceptions.SQLError.createSQLException(SQLError.java:129)
  ...
  ... 12 more
Caused by: com.mysql.cj.exceptions.WrongArgumentException: HOUR_OF_DAY: 2 -> 3
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
  ...
  ... 16 more
Caused by: java.lang.IllegalArgumentException: HOUR_OF_DAY: 2 -> 3
at java.util.GregorianCalendar.computeTime(GregorianCalendar.java:2829)
at java.util.Calendar.updateTime(Calendar.java:3393)
at java.util.Calendar.getTimeInMillis(Calendar.java:1782)
at com.mysql.cj.result.SqlTimestampValueFactory.localCreateFromTimestamp(SqlTimestampValueFactory.java:108)
... 22 more

причем если указать UTC, то всё импортится, но с +2 часа сдвигом (т.к. прочитал в СЕТ, а сохранил в UTC), так что не вариант. может кто сражался с таким?
источник

EV

Eduard Vlasov in Data Engineers
Тут в EMR завезли Hudi,  кто-то уже успел поиграться?
https://docs.aws.amazon.com/en_us/emr/latest/ReleaseGuide/emr-hudi.html
источник

EV

Eduard Vlasov in Data Engineers
наканецта будем исполнять GDPR (нет) 🙂
источник

Ik

Ilia ksen in Data Engineers
Привет. Ребята как изменить value колонок используя ее текущее значение с помощью этой функции
источник

Ik

Ilia ksen in Data Engineers
df.withColumn(colName,
           when(col(colName).isNull, col(colName))
             .otherwise())
источник

Ik

Ilia ksen in Data Engineers
Допустим надо к той дате которая находится в колонке добавить час
источник

Ik

Ilia ksen in Data Engineers
Не совсем просто понмиаю как вытащить дату в таком случае из колонки
источник

AS

Anton Shelin in Data Engineers
df.withColumn(colName,
           when(col(colName).isNull, col(colName))
             .otherwise(col(colName) + 1 час))
источник

Ik

Ilia ksen in Data Engineers
Anton Shelin
df.withColumn(colName,
           when(col(colName).isNull, col(colName))
             .otherwise(col(colName) + 1 час))
в колонке дата лежит в виде строки.
источник

Ik

Ilia ksen in Data Engineers
допустим дата 12.01.19 23:59. надо чтобы получилось 13.01.19 00.59
источник

Ik

Ilia ksen in Data Engineers
Так можно сделать только оперируя с датами
источник

Ik

Ilia ksen in Data Engineers
Поэтому мне надо как-то ее достать, преобразовтаь к дате и по нормальному добавить час
источник

AS

Anton Shelin in Data Engineers
unix_timestamp($"colName", "yyyy/MM/dd")
источник

Ik

Ilia ksen in Data Engineers
Anton Shelin
unix_timestamp($"colName", "yyyy/MM/dd")
thx щас попробую
источник

AS

Anton Shelin in Data Engineers
потом + expr("INTERVAL 1 HOURS") я точно не помню но как то так. там путаница у меня в голове всегда с этой кучей типов для времени в спарке
источник

Ik

Ilia ksen in Data Engineers
Anton Shelin
потом + expr("INTERVAL 1 HOURS") я точно не помню но как то так. там путаница у меня в голове всегда с этой кучей типов для времени в спарке
спасибо
источник

RI

Rustam Iksanov in Data Engineers
Rustam Iksanov
в итоге получилось так
from_unixtime(col("time").cast("long") + (col("diff") * lit(60*60) )))
источник