Size: a a a

2020 September 07

С

Сюткин in Data Engineers
У меня задача просто лить в hive,над архивом csv.gz делаешь external table,а потом лью из неё данные в конечную партицилнированную таблицу
источник

АЖ

Андрей Жуков... in Data Engineers
дык у тя цсв
источник

RY

Ruslan515 Y in Data Engineers
Сюткин
Больших данных... я загружаю  каждый день эксельки по 100-120гб
Process finished with exit code 137 (interrupted by signal 9: SIGKILL) у меня к примеру, как я понял, памяти не хватает
источник

С

Сюткин in Data Engineers
Андрей Жуков
дык у тя цсв
Ну дык да,конвертеры в csv есть же
источник

АЖ

Андрей Жуков... in Data Engineers
вообще использование экселей как входа и выхода - это чот безумие
источник

С

Сюткин in Data Engineers
100мб это не много
источник

RY

Ruslan515 Y in Data Engineers
Андрей Жуков
вообще использование экселей как входа и выхода - это чот безумие
если просят на выходе отчет в определенном формате и excel. что тогда делать?
источник

OA

Oleksandr Averchenko in Data Engineers
Андрей Жуков
вообще использование экселей как входа и выхода - это чот безумие
Безумие? Это тырпрайз!
источник

OA

Oleksandr Averchenko in Data Engineers
источник

OA

Oleksandr Averchenko in Data Engineers
Ruslan515 Y
Подскажите как работать с excel файлами больших размеров(50-100мб). Пробовал считать по частям с pd.read_excel(skip_rows=, nrows=).1я проблема) Долго загружает данные в ДФ.2я. после модификаций этих данных нужно записать их обратно в данный файл с сохранением изначального форматирования файла. вносил изменения через openpyxl. Но сохранить не получается - размер большой говорит
Кубы.
источник

А

Алексей in Data Engineers
выгрузи в csv, а в эксель подгрузи из datasource
источник

OA

Oleksandr Averchenko in Data Engineers
Брат жив, зависимость есть.
источник

А

Алексей in Data Engineers
источник

С

Сюткин in Data Engineers
Ruslan515 Y
если просят на выходе отчет в определенном формате и excel. что тогда делать?
Если ты джун/мидл то делай
Если ты сеньор/лид то шли в далёкое путешествие
источник

С

Сюткин in Data Engineers
источник

SM

Sergey M in Data Engineers
Всем привет
ну в общем у меня вот такое
No Encoder found for java.util.UUID
никто не подскажет как написать custom'ный encoder?

либо тупо чтобы implicit'но для UUID использовался Encoders.STRING
источник

RY

Ruslan515 Y in Data Engineers
как считать csv по частям(там дф) в цикле пройдя все строки? скажем у нас 100к строк будем в цикле считывать сначало 10к, обрабатываем. потом следующие 10к... соль в том что нужно заранее знать кол-о строк. но как ее узнать не считывая весь файл?
источник

SI

Sergey Ivanychev in Data Engineers
Ruslan515 Y
как считать csv по частям(там дф) в цикле пройдя все строки? скажем у нас 100к строк будем в цикле считывать сначало 10к, обрабатываем. потом следующие 10к... соль в том что нужно заранее знать кол-о строк. но как ее узнать не считывая весь файл?
wc -l
источник

SI

Sergey Ivanychev in Data Engineers
В питоне можно

with open(path) as file:
 lines_count = sum(1 for _ in file)
источник

SI

Sergey Ivanychev in Data Engineers
В целом, тебе не надо знать количество строк в файле, так как читающий интерфейс как правило возвращает итерируемый по строкам объект
источник