Size: a a a

2020 September 07

AS

Andrey Smirnov in Data Engineers
Ruslan515 Y
как считать csv по частям(там дф) в цикле пройдя все строки? скажем у нас 100к строк будем в цикле считывать сначало 10к, обрабатываем. потом следующие 10к... соль в том что нужно заранее знать кол-о строк. но как ее узнать не считывая весь файл?
А как это поможет, считывайте по одной, считайте то что надо на потоке(если это возможно)
источник

R

Renarde in Data Engineers
Ruslan515 Y
как считать csv по частям(там дф) в цикле пройдя все строки? скажем у нас 100к строк будем в цикле считывать сначало 10к, обрабатываем. потом следующие 10к... соль в том что нужно заранее знать кол-о строк. но как ее узнать не считывая весь файл?
зачем нужно конечное количество строк? можно просто читать чанками в pandas:

https://stackoverflow.com/questions/25962114/how-do-i-read-a-large-csv-file-with-pandas
источник

SS

Sergey Sheremeta in Data Engineers
Sergey Sheremeta
коллеги! внезапно никто не настраивал глобальный индекс в HBase для Apache Hudi? как решали проблему зависимостей?
источник

AA

Ali Abdullaev in Data Engineers
Привет всем!
Нужна помощь c Firebase.
Хотим настроить streaming export событий пользователей из firebase в self-hosted kafka. Хотим сделать это для сотен событий, которые есть в firebase. Как мы можем это сделать? Насколько я знаю cloud functions можно навешивать только на conversion  events, а их может быть максимум 15 штук
источник

S

Stanislav in Data Engineers
тоже послушаю
источник

Ж

Жмака in Data Engineers
Привет! Есть трейт Sparksessionsetup, в нем инициализируется sparkSession но без appName. Этот  appName приходит аргументом из спарк-сабмита - один из аргументов джара. Как это имя можно добавить в трейте к сессии через .appName(argValue)?
источник

DZ

Dmitry Zuev in Data Engineers
сам прилипнет
источник

Ж

Жмака in Data Engineers
Dmitry Zuev
сам прилипнет
Не. Прилипает имя обжекта с мэйн функцией
источник

DZ

Dmitry Zuev in Data Engineers
spark-submit --name "My app"  так ?
источник

DZ

Dmitry Zuev in Data Engineers
Жмака
Привет! Есть трейт Sparksessionsetup, в нем инициализируется sparkSession но без appName. Этот  appName приходит аргументом из спарк-сабмита - один из аргументов джара. Как это имя можно добавить в трейте к сессии через .appName(argValue)?
источник

ИК

Иван Калининский... in Data Engineers
Жмака
Привет! Есть трейт Sparksessionsetup, в нем инициализируется sparkSession но без appName. Этот  appName приходит аргументом из спарк-сабмита - один из аргументов джара. Как это имя можно добавить в трейте к сессии через .appName(argValue)?
догадываюсь, что передаете так: spark-submit —deploy-mode=cluster file.jar name=app_name
Так не будет работать, аргумент .appName(value) у меня всегда игнорировался, работает только когда mode=client или как Дмитрий только что написал, --name app_name как параметр spark-submit
источник

Ж

Жмака in Data Engineers
Иван Калининский
догадываюсь, что передаете так: spark-submit —deploy-mode=cluster file.jar name=app_name
Так не будет работать, аргумент .appName(value) у меня всегда игнорировался, работает только когда mode=client или как Дмитрий только что написал, --name app_name как параметр spark-submit
Нет. У меня кастомные аргументы для моделей и имя модели нужнл сделать именем аппликации.
источник

Ж

Жмака in Data Engineers
А через имплиситы как то можно засунуть?
источник

DZ

Dmitry Zuev in Data Engineers
чем мешает их передавать?
источник

DZ

Dmitry Zuev in Data Engineers
Жмака
А через имплиситы как то можно засунуть?
все можно, вопрос зачем
источник

ИК

Иван Калининский... in Data Engineers
так аргумент уже в строке, достаточно переместить его, или еще раз в этой же строке передать в другом месте))
источник

Ж

Жмака in Data Engineers
Аргумент же парсится в мэйне.
источник

DZ

Dmitry Zuev in Data Engineers
spark-submit --name "My app"  так он улетит в спакр сессию сам
источник

Ж

Жмака in Data Engineers
Dmitry Zuev
все можно, вопрос зачем
Могут закинуть в аргумент джара а в аппнейм забыть просто. Хочу этого избежать
источник

ИК

Иван Калининский... in Data Engineers
Жмака
Могут закинуть в аргумент джара а в аппнейм забыть просто. Хочу этого избежать
нет, оно работает так, как работает. Не надо забывать
источник