Телеграмм чат группы pydata_chat страница 496

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Python для анализа данных

1597 membersпожаловаться на группу

2020 November 18

А

Алексей in Python для анализа данных

Добрый день.
Помогите советом. Есть датафрейм в нём некоторые данные надо "замаскировать" что бы вместо строки был какой нибудь инт. Но что бы можно было потом в любое время расшифровать и отображать норм данные.
Например, отдать данные подрядчику и потом после анализа/обработки расшифровать.
Нужно писать функцию? Что то подсказывает что есть готовое решение.

источник

17:37пожаловаться #1

R

Ruslan in Python для анализа данных

Можно конечно замутить что то более умное но по быстрому просто с генерируй случайное число для уникальных данных которые ты хочешь замаскировать. Сохрани у себе отдельный файл с этой привязкой. А подрядчику отдай данные как раз со сгенерированными случайными числами. Главное чтобы привязка была уникальной

источник

17:45пожаловаться #2

А

Алексей in Python для анализа данных

Ruslan

Можно конечно замутить что то более умное но по быстрому просто с генерируй случайное число для уникальных данных которые ты хочешь замаскировать. Сохрани у себе отдельный файл с этой привязкой. А подрядчику отдай данные как раз со сгенерированными случайными числами. Главное чтобы привязка была уникальной

Спасибо. Так и думал сделать. На выходе обновлённый df и справочник с заменами для восстановления.

источник

17:49пожаловаться #3

R

Ruslan in Python для анализа данных

Ну это быстрее на текущий момент ) а в целях развития в принципе можно написать функцию или библиотеку погуглить 100% что нить такое есть

источник

17:59пожаловаться #4

СИ

Сергей Ильин... in Python для анализа данных

Ruslan

Знаком на уровне слышал звон да не знаю где он. Но в любом случае нужно разбираться.

Задача следующая: есть продажи. Довольно хаотичные. Очищенные от промо и прочих заказов сформированных по нерегулярной потребности. Нужно построить прогноз на 2-3 недели вперёд. Временной ряд можем взять за любой период.

Если сможете очистить данные до такой степени, что не страшно их показать - готов помочь.
Ну или в личку пишите, чтоб чат не засорять.

Предсказние по временному ряду начинается с приведения временного ряда к стационарному.

источник

18:31пожаловаться #5

СИ

Сергей Ильин... in Python для анализа данных

Ruslan

Можно конечно замутить что то более умное но по быстрому просто с генерируй случайное число для уникальных данных которые ты хочешь замаскировать. Сохрани у себе отдельный файл с этой привязкой. А подрядчику отдай данные как раз со сгенерированными случайными числами. Главное чтобы привязка была уникальной

Чем не нравятся рассчитанные хеши для строк?

источник

18:32пожаловаться #6

R

Ruslan in Python для анализа данных

Сергей Ильин

Чем не нравятся рассчитанные хеши для строк?

Нравится, звучит проще чем я предложил. Но я об этом мало чего знаю поэтому решил не говорить то чего не знаю

источник

18:33пожаловаться #7

R

Ruslan in Python для анализа данных

Сергей Ильин

Если сможете очистить данные до такой степени, что не страшно их показать - готов помочь.
Ну или в личку пишите, чтоб чат не засорять.

Предсказние по временному ряду начинается с приведения временного ряда к стационарному.

Договорились. Для начала соберу их. Думаю на след недельке напишу. Спасибо!

источник

18:35пожаловаться #8

СИ

Сергей Ильин... in Python для анализа данных

Ruslan

Договорились. Для начала соберу их. Думаю на след недельке напишу. Спасибо!

Ок, принято.

источник

18:35пожаловаться #9

K

Karina in Python для анализа данных

Konstantin Mohov

У вас разделитель (sep) стоит «\t» , а сами столбцы на скриншоте разделены запятой. Может в этом дело ?

Спасибо! :)

источник

19:42пожаловаться #10

K

Karina in Python для анализа данных

https://docs.python.org/3/library/codecs.html#standard-encodings кодировку заберите отсюда и разделитель

Спасибо! :)

источник

19:42пожаловаться #11

А

Алексей in Python для анализа данных

Сергей Ильин

Чем не нравятся рассчитанные хеши для строк?

Я хэши не считаю а генерирую интовые значения. Это же плюс-минус одно и тоже? Я только делаю дополнительное действие с расчётом максимального id.

источник

21:54пожаловаться #12

R

Ruslan in Python для анализа данных

Ребят, подскажите, пожалуйста, кто-нибудь считал эластичность спроса по цене ? Как это делается на большом количестве товаров ? Нужен best practice

источник

22:17пожаловаться #13

2020 November 19

K

Karina in Python для анализа данных

Konstantin Mohov

У вас разделитель (sep) стоит «\t» , а сами столбцы на скриншоте разделены запятой. Может в этом дело ?

ок, это и правда помогло делу, а вот encoding в разных вариантах -нет.

источник

01:29пожаловаться #14

3

3ldar in Python для анализа данных

ок, это и правда помогло делу, а вот encoding в разных вариантах -нет.

Поделитесь сэмплом)

источник

01:56пожаловаться #15

КД

Кирилл Дмитриевич... in Python для анализа данных

Коллеги, подскажите, как разделить столбец на несколько столбцов, если панды в упор не хотят этого делать?

источник

09:09пожаловаться #16

AT

Alexander T in Python для анализа данных

Кирилл Дмитриевич

Коллеги, подскажите, как разделить столбец на несколько столбцов, если панды в упор не хотят этого делать?

источник

09:12пожаловаться #17

КД

Кирилл Дмитриевич... in Python для анализа данных

Спасибо большое

источник

09:18пожаловаться #18

СИ

Сергей Ильин... in Python для анализа данных

Я хэши не считаю а генерирую интовые значения. Это же плюс-минус одно и тоже? Я только делаю дополнительное действие с расчётом максимального id.

Да.
Кстати, табличку «значение - инт» вы как-то автоматически обновляете?

источник

09:19пожаловаться #19

А

Алексей in Python для анализа данных

Сергей Ильин

Да.
Кстати, табличку «значение - инт» вы как-то автоматически обновляете?

Да. Вторым необязательным параметром кидаю df для мапинга. Если новое значение появляется, то оно добавляется в df с новым интом. Возвращается series c интами и обновлённый df для маппинга

источник

09:23пожаловаться #20