Size: a a a

Python для анализа данных

2020 November 18

А

Алексей in Python для анализа данных
Добрый день.
Помогите советом. Есть датафрейм в нём некоторые данные надо "замаскировать" что бы вместо строки был какой нибудь инт. Но что бы можно было потом в любое время расшифровать и отображать норм данные.
Например, отдать данные подрядчику и потом после анализа/обработки расшифровать.
Нужно писать функцию? Что то подсказывает что есть готовое решение.
источник

R

Ruslan in Python для анализа данных
Можно конечно замутить что то более умное но по быстрому просто с генерируй случайное число для уникальных данных которые ты хочешь замаскировать. Сохрани у себе отдельный файл с этой привязкой. А подрядчику отдай данные как раз со сгенерированными случайными числами. Главное чтобы привязка была уникальной
источник

А

Алексей in Python для анализа данных
Ruslan
Можно конечно замутить что то более умное но по быстрому просто с генерируй случайное число для уникальных данных которые ты хочешь замаскировать. Сохрани у себе отдельный файл с этой привязкой. А подрядчику отдай данные как раз со сгенерированными случайными числами. Главное чтобы привязка была уникальной
Спасибо. Так и думал сделать. На выходе обновлённый df и справочник с заменами для восстановления.
источник

R

Ruslan in Python для анализа данных
Ну это быстрее на текущий момент ) а в целях развития в принципе можно написать функцию или библиотеку погуглить 100% что нить такое есть
источник

СИ

Сергей Ильин... in Python для анализа данных
Ruslan
Знаком на уровне слышал звон да не знаю где он. Но в любом случае нужно разбираться.

Задача следующая: есть продажи. Довольно хаотичные. Очищенные от промо и прочих заказов сформированных по нерегулярной потребности. Нужно построить прогноз на 2-3 недели вперёд. Временной ряд можем взять за любой период.
Если сможете очистить данные до такой степени, что не страшно их показать - готов помочь.
Ну или в личку пишите, чтоб чат не засорять.

Предсказние по временному ряду начинается с приведения временного ряда к стационарному.
источник

СИ

Сергей Ильин... in Python для анализа данных
Ruslan
Можно конечно замутить что то более умное но по быстрому просто с генерируй случайное число для уникальных данных которые ты хочешь замаскировать. Сохрани у себе отдельный файл с этой привязкой. А подрядчику отдай данные как раз со сгенерированными случайными числами. Главное чтобы привязка была уникальной
Чем не нравятся рассчитанные хеши для строк?
источник

R

Ruslan in Python для анализа данных
Сергей Ильин
Чем не нравятся рассчитанные хеши для строк?
Нравится, звучит проще чем я предложил. Но я об этом мало чего знаю поэтому решил не говорить то чего не знаю
источник

R

Ruslan in Python для анализа данных
Сергей Ильин
Если сможете очистить данные до такой степени, что не страшно их показать - готов помочь.
Ну или в личку пишите, чтоб чат не засорять.

Предсказние по временному ряду начинается с приведения временного ряда к стационарному.
Договорились. Для начала соберу их.  Думаю на след недельке напишу. Спасибо!
источник

СИ

Сергей Ильин... in Python для анализа данных
Ruslan
Договорились. Для начала соберу их.  Думаю на след недельке напишу. Спасибо!
Ок, принято.
источник

K

Karina in Python для анализа данных
Konstantin Mohov
У вас разделитель (sep) стоит «\t» , а сами столбцы на скриншоте разделены запятой. Может в этом дело ?
Спасибо! :)
источник

K

Karina in Python для анализа данных
Van Gevorgyan
https://docs.python.org/3/library/codecs.html#standard-encodings   кодировку заберите отсюда и разделитель
Спасибо! :)
источник

А

Алексей in Python для анализа данных
Сергей Ильин
Чем не нравятся рассчитанные хеши для строк?
Я хэши не считаю а генерирую интовые значения. Это же плюс-минус одно и тоже? Я только делаю дополнительное действие с расчётом максимального id.
источник

R

Ruslan in Python для анализа данных
Ребят, подскажите, пожалуйста, кто-нибудь считал эластичность спроса по цене ? Как это делается на большом количестве товаров ? Нужен best practice
источник
2020 November 19

K

Karina in Python для анализа данных
Konstantin Mohov
У вас разделитель (sep) стоит «\t» , а сами столбцы на скриншоте разделены запятой. Может в этом дело ?
ок, это и правда помогло делу, а вот encoding в разных вариантах -нет.
источник

3

3ldar in Python для анализа данных
Karina
ок, это и правда помогло делу, а вот encoding в разных вариантах -нет.
Поделитесь сэмплом)
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Коллеги, подскажите, как разделить столбец на несколько столбцов, если панды в упор не хотят этого делать?
источник

AT

Alexander T in Python для анализа данных
Кирилл Дмитриевич
Коллеги, подскажите, как разделить столбец на несколько столбцов, если панды в упор не хотят этого делать?
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Спасибо большое
источник

СИ

Сергей Ильин... in Python для анализа данных
Алексей
Я хэши не считаю а генерирую интовые значения. Это же плюс-минус одно и тоже? Я только делаю дополнительное действие с расчётом максимального id.
Да.
Кстати, табличку «значение - инт» вы как-то автоматически обновляете?
источник

А

Алексей in Python для анализа данных
Сергей Ильин
Да.
Кстати, табличку «значение - инт» вы как-то автоматически обновляете?
Да. Вторым необязательным параметром кидаю df для мапинга. Если новое значение появляется, то оно добавляется в df с новым интом. Возвращается series c интами и обновлённый df для маппинга
источник