Size: a a a

2021 March 30

SK

Sergey Kaurov in Data Engineers
Ни..я не понимаю что он пишет про col.. Что хочет. На Zeppelin делаю %spark
источник

N

Nikita Blagodarnyy in Data Engineers
Sergey Kaurov
Привет 👋
Хорошо всё шло.. Но дальше запнулся и что-то не знаю.. Изучаю Scala потихоньку.
Есть
| uid | timestamp|
---------------------
| 555 | 12356788|
| 555 | 16776678|
| 555 | 16657556|
Ну в общем uid дофига одинаковых есть, но из поля timestamp надо выбрать наибольшее значение и вывести с uid. Одна строка получится. Пытаюсь max(expr) использовать:
.withColumn("c_max", max(col("timestamp")))
Но что-то не так делаю. Подскажите или пример такой же скиньте плиз!?
так не работает. пиши df.groupBy(«uid»).agg(max(«timestamp»))
источник

AE

Alexey Evdokimov in Data Engineers
на английском пишет поди. переводчик нужен.
источник

N

Nikita Blagodarnyy in Data Engineers
Sergey Kaurov
Привет 👋
Хорошо всё шло.. Но дальше запнулся и что-то не знаю.. Изучаю Scala потихоньку.
Есть
| uid | timestamp|
---------------------
| 555 | 12356788|
| 555 | 16776678|
| 555 | 16657556|
Ну в общем uid дофига одинаковых есть, но из поля timestamp надо выбрать наибольшее значение и вывести с uid. Одна строка получится. Пытаюсь max(expr) использовать:
.withColumn("c_max", max(col("timestamp")))
Но что-то не так делаю. Подскажите или пример такой же скиньте плиз!?
но если тебе так тяжко и кейс-класса нету на агрегат, то напиши spark.sql(«select ololo from 111 group by tose»)
источник

SK

Sergey Kaurov in Data Engineers
Nikita Blagodarnyy
так не работает. пиши df.groupBy(«uid»).agg(max(«timestamp»))
Вот что-то про не возможность группировки
источник

SK

Sergey Kaurov in Data Engineers
Alexey Evdokimov
на английском пишет поди. переводчик нужен.
Не в зоне русского литературного пишет 😁
источник

AE

Alexey Evdokimov in Data Engineers
ну так процитируй чего он там пишет. народ тут подскажет как это понимать
источник

SK

Sergey Kaurov in Data Engineers
Да не вопрос.. Отошёл просто от рабочего места. Минут через 5ть напишу конечно
источник

N

Nikita Blagodarnyy in Data Engineers
Вы вот тут сидите со своими спарками, а в ВТБ, между прочим, технологии будущего применили. Сливают данные из разных источников, не баран начхал.

https://www.forbes.ru/brandvoice/vtb/424867-cifrovoy-sled-ostavlyayut-vse
источник

SK

Sergey Kaurov in Data Engineers
Nikita Blagodarnyy
так не работает. пиши df.groupBy(«uid»).agg(max(«timestamp»))
О! Чудо расчудесное 😁
Скопировал отсель 1:1 и отработал вроде. До этого по ссылке делал, где
groupBy($"key").agg(max($"value") - но вот от неё ругачка была
источник

ME

Max Efremov in Data Engineers
Даталейк?
источник

N

Nikita Blagodarnyy in Data Engineers
Max Efremov
Даталейк?
Лучше. Datafusion!
источник

R

Renarde in Data Engineers
Nikita Blagodarnyy
Лучше. Datafusion!
я поначалу подумал - ничо себе, в Apache Arrow контрибьютят...

https://arrow.apache.org/blog/2019/02/04/datafusion-donation/
источник

SK

Sergey Kaurov in Data Engineers
А теперь поле timestamp в дату перевести как лучше?
Смотрю в Built-in Function
на "to_utc_timestamp"
Но как корректно его прописать, что бы вывести
uid | date
555 | 2021-08-03 lalala...?
источник

N

Nikita Blagodarnyy in Data Engineers
Sergey Kaurov
А теперь поле timestamp в дату перевести как лучше?
Смотрю в Built-in Function
на "to_utc_timestamp"
Но как корректно его прописать, что бы вывести
uid | date
555 | 2021-08-03 lalala...?
ну там еще другие всякие функции есть про timestamp, посмотри их тоже
источник

AZ

Anton Zadorozhniy in Data Engineers
Одна большая реклама GDPR, CCPA и прочих хороших аббревиатур
источник

SK

Sergey Kaurov in Data Engineers
Nikita Blagodarnyy
ну там еще другие всякие функции есть про timestamp, посмотри их тоже
Да там конкретные примеры есть на spark.apache.org/doc
В виде:
SELECT to_utc_.. Начинаешь в запрос вставлять и так и эток.. Ругается.. Ну я пряник пока в Scala.. Но даж не знаю что ещё прочитать про синтаксис может, что-то не туда пихаю..😅
источник

s

skatromb in Data Engineers
Sergey Kaurov
Да там конкретные примеры есть на spark.apache.org/doc
В виде:
SELECT to_utc_.. Начинаешь в запрос вставлять и так и эток.. Ругается.. Ну я пряник пока в Scala.. Но даж не знаю что ещё прочитать про синтаксис может, что-то не туда пихаю..😅
Скорее всего тип данных не тот пихаешь
источник

SK

Sergey Kaurov in Data Engineers
А строковый из df
источник

SK

Sergey Kaurov in Data Engineers
Сейчас в обще не из df
Uid === "555", а timestamp подтягивается строковый из БД (не знаю как проверить но был string).
источник