Size: a a a

2019 December 01

FL

Fedor Lavrentyev in Data Engineers
Anon 43
Здравствуйте! Не подскажите где почитать по вопросу "проблемы обработки больших данных традиционными инструментами"? Не понятно что за традиционные инструменты, и в чем их проблема
Звучит как тема реферата на плюс полбалла за семестр. :)
источник

FL

Fedor Lavrentyev in Data Engineers
Или это экзаменационный билет по курсу больших данных?
источник

MV

Michael Voloshin in Data Engineers
Fedor Lavrentyev
Или это экзаменационный билет по курсу больших данных?
в институте культуры)
источник

ME

Max Efremov in Data Engineers
Евгений Глотов
вопрос же был про проблемы, у экселя большие проблемы с обработкой файлов длиной больше миллиона строк)
У него нет с этим проблем, он просто больше 1048576 не покажет и всё)))
источник

ME

Max Efremov in Data Engineers
Зато с первым миллионом довольно шустро работает, когда открыл.
источник

FL

Fedor Lavrentyev in Data Engineers
Michael Voloshin
в институте культуры)
Ну вопрос-то вполне валиден. Более того, я бы через ответ на него и определял, что такое большие данные.
источник

FL

Fedor Lavrentyev in Data Engineers
Max Efremov
У него нет с этим проблем, он просто больше 1048576 не покажет и всё)))
Это было давно. Сейчас работает.
источник

ME

Max Efremov in Data Engineers
Fedor Lavrentyev
Это было давно. Сейчас работает.
да? Мой 365 офис не открывает. Как его заставить больше показать?
источник

ME

Max Efremov in Data Engineers
Прост постоянно открываю на просмотр огромные csv с результатами пайплайнов
источник

MV

Michael Voloshin in Data Engineers
Max Efremov
да? Мой 365 офис не открывает. Как его заставить больше показать?
курите powerpivot
источник

MV

Michael Voloshin in Data Engineers
Max Efremov
Прост постоянно открываю на просмотр огромные csv с результатами пайплайнов
не открывайте)
источник

ME

Max Efremov in Data Engineers
Традиционные средства: всё что не паралелится на кластер, а работает на одной машине, наверное. Как простой питон скрипт так и всякие инструменты типа alteryx и sas
источник

ME

Max Efremov in Data Engineers
Michael Voloshin
курите powerpivot
Посмотрю, спасибо.
источник

ME

Max Efremov in Data Engineers
Michael Voloshin
не открывайте)
А чем лучше? Notepad++ с ума сходит уже на 300-500 метровых файлах) а эксель - самый простой способ глянуть целостность таблиц, посмотреть колонки и отфильтровать там по значениям
источник

ME

Max Efremov in Data Engineers
Например чекнуть, что в колонке стоит 1 и 0, а ничего левого или пустой строки
источник

FL

Fedor Lavrentyev in Data Engineers
Max Efremov
да? Мой 365 офис не открывает. Как его заставить больше показать?
Есть лимит на размер импорта. На число строк лимита нет. Правда, я не пытался потом такие даташиты сохранять и обратно загружать, но в моменте это работает. :)
источник

MV

Michael Voloshin in Data Engineers
Max Efremov
А чем лучше? Notepad++ с ума сходит уже на 300-500 метровых файлах) а эксель - самый простой способ глянуть целостность таблиц, посмотреть колонки и отфильтровать там по значениям
любите открывать большие файлы на локальной тачке с утилизацией всех 16/32 Гб оперативы? Выбирайте правильные инструменты - начните с GLOGG, затем посмотрите чем еще можно открыть логи. Excel же познакомит вас с чудесным миром кодировок.
источник

ME

Max Efremov in Data Engineers
Michael Voloshin
любите открывать большие файлы на локальной тачке с утилизацией всех 16/32 Гб оперативы? Выбирайте правильные инструменты - начните с GLOGG, затем посмотрите чем еще можно открыть логи. Excel же познакомит вас с чудесным миром кодировок.
Проблема в том, что это не логи, а csv. С кодировками проблем как раз нет, везде юникод, текст только на английском.
источник

ME

Max Efremov in Data Engineers
У амазона есть тула для запросов по csv прямо в S3 через афину вроде, но не очень удобно
источник

ME

Max Efremov in Data Engineers
Хотя, можно presto на такие файлики натравить, наверное...
источник