Size: a a a

ML Boot Camp Official

2020 September 18

GE

Gleb Erofeev in ML Boot Camp Official
Дима Васькин
Ну на большом датасете такое долго будет работать просто
Предложи свое решение, пожалуйста.
источник

RY

Ruslan515 Y in ML Boot Camp Official
Забыл сказать - там порядка миллиона строк). Нужна скорость
источник

GE

Gleb Erofeev in ML Boot Camp Official
Ruslan515 Y
Забыл сказать - там порядка миллиона строк). Нужна скорость
Попробуй
источник

RY

Ruslan515 Y in ML Boot Camp Official
пока на 100к в 40 секунд уклаывается
источник

ДВ

Дима Васькин... in ML Boot Camp Official
Так вроде должно быстро сработать

df['len_text'] = list(map(len, df['text']))
источник

A

Alex in ML Boot Camp Official
Gleb Erofeev
df['len_text'] = df['text'].apply(lambda x: len(str(x)))
Это решение по идее быстрее
источник

IG

Ivan Glebov in ML Boot Camp Official
Alex
Это решение по идее быстрее
а если это еще добавить?
https://github.com/jmcarpenter2/swifter
источник

GE

Gleb Erofeev in ML Boot Camp Official
Дима Васькин
Так вроде должно быстро сработать

df['len_text'] = list(map(len, df['text']))
map - генератор. при преобразовании в  list будет цикл. Если в text будет не str - будет ошибка
источник

GE

Gleb Erofeev in ML Boot Camp Official
```df['len_text'] = list(map(len, df['text'].astype(str))
)```
источник

ДВ

Дима Васькин... in ML Boot Camp Official
Alex
Это решение по идее быстрее
Да, реально его решение быстрее работает.. 🤔
источник

GE

Gleb Erofeev in ML Boot Camp Official
Ruslan515 Y
пока на 100к в 40 секунд уклаывается
Можно еще pandas в dusk перекинуть - он умеет в несколько потоков. Но если не знаешь как им пользоваться - помучаешься.
источник

RY

Ruslan515 Y in ML Boot Camp Official
Дима Васькин
Так вроде должно быстро сработать

df['len_text'] = list(map(len, df['text']))
ок. буду тестить. Спасибо!
источник

A

Alex in ML Boot Camp Official
Хз, не пользовался таким
источник

RY

Ruslan515 Y in ML Boot Camp Official
Gleb Erofeev
Можно еще pandas в dusk перекинуть - он умеет в несколько потоков. Но если не знаешь как им пользоваться - помучаешься.
а если использовать joblib&
источник

RY

Ruslan515 Y in ML Boot Camp Official
?
источник

GE

Gleb Erofeev in ML Boot Camp Official
Ruslan515 Y
а если использовать joblib&
или так - mp решает
источник

IG

Ivan Glebov in ML Boot Camp Official
Gleb Erofeev
Можно еще pandas в dusk перекинуть - он умеет в несколько потоков. Но если не знаешь как им пользоваться - помучаешься.
вот в этом свифтере, что я скидывал - грят что он(свифтер обходит даск)
источник

IG

Ivan Glebov in ML Boot Camp Official
ну еще можно поднять кластер с хадупом, записать в паркетник, и посчитать спарком
источник

GE

Gleb Erofeev in ML Boot Camp Official
Ivan Glebov
ну еще можно поднять кластер с хадупом, записать в паркетник, и посчитать спарком
Проше все же запустить код как есть - попить чайку и все будет готово даже на 10 Миллионах записей
источник

IG

Ivan Glebov in ML Boot Camp Official
это точно, за время чая может поймешь, что и не нужно все это
источник