Size: a a a

2021 November 03

DM

Dmitry Mischenko in Data Engineers
Такая идея и была изначально, как крайний выход)
Проблема в том,что я 10000 для примера привел….а так там херачить x*10^9 сообщений таких)
источник

DM

Dmitry Mischenko in Data Engineers
хоть в кишки лезть и руками файлы создавать…
источник

AS

Andrey Smirnov in Data Engineers
поменяйте логику дедупликации (временно), вообще странно завязываться на номер оффсета, а не на физически что лежит внути записи
источник

S

Shadilan R16 MU Rost... in Data Engineers
Ну я бы так делал n одинаковых сообщений и обработчик в консамере на них
источник

DM

Dmitry Mischenko in Data Engineers
У нас могут быть 2 записи с одинаковым содержимым и мы обязаны будем обе дальше отобразить по бизнес логике.
Мб вариант делать Hash и с содержимого и с номера оффсета, но надо дорабатывать архитектуру, да
источник

kk

k k in Data Engineers
Ребят, а как зайти в виртуальное окружение анаконды через bat файл , который работает с cmd?
источник

AK

Alex K in Data Engineers
Народ, подскажите. У меня приобучении GBT падает. Может это что-то стандартное. Или просто ресурсов не хватает
источник

AK

Alex K in Data Engineers
И второй вопрос. Есть ли смысл заморачиваться и всё это в Pyspark делать или проще в pandas перевести и sklearn юзать
источник

АР

Андрей Романов... in Data Engineers
в тексте ошибки OutOfMemoryError
источник

AK

Alex K in Data Engineers
ну, да, но вдруг что-то не то делаю
источник

AK

Alex K in Data Engineers
вроде сэмплов всего 15000. Видмо так не понять
источник

AK

Alex K in Data Engineers
а по этому что скажете?
источник

AZ

Anton Zadorozhniy in Data Engineers
сколько данных?
источник

AK

Alex K in Data Engineers
2млн
источник

AK

Alex K in Data Engineers
2-3
источник

AK

Alex K in Data Engineers
строк
источник

DZ

Dmitry Zuev in Data Engineers
light boost на на питоне
источник

DZ

Dmitry Zuev in Data Engineers
на одной тачке
источник

ЕГ

Евгений Глотов... in Data Engineers
Проще в пандас
источник

AK

Alex K in Data Engineers
Lightgbm?
источник