Size: a a a

Python для анализа данных

2020 November 19

А

Алексей in Python для анализа данных
Алексей
Да. Вторым необязательным параметром кидаю df для мапинга. Если новое значение появляется, то оно добавляется в df с новым интом. Возвращается series c интами и обновлённый df для маппинга
Написал функцию
def autonum(series, df_rules_encr=None):
   ....
   return result_series , return_df_rules
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Алексей
Я хэши не считаю а генерирую интовые значения. Это же плюс-минус одно и тоже? Я только делаю дополнительное действие с расчётом максимального id.
не бойся если ты один бойся если ты два (с)

мне кажется библиотек таких полно. Просто в России это не нужно. Несмотря на ФЗ о защите персональных данных.
источник

А

Алексей in Python для анализа данных
Pavel Zheltouhov
не бойся если ты один бойся если ты два (с)

мне кажется библиотек таких полно. Просто в России это не нужно. Несмотря на ФЗ о защите персональных данных.
Мне тоже так кажется, что должны быть библиотеки решающие этот вопрос. Поэтому и спросил.
По поводу защиты ПД в РФ в точку. Я ещё работаю с фин показателями.
Слишком правильный, наверное, в части доступов к информации, поэтому и заморочился маскировкой.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Алексей
Мне тоже так кажется, что должны быть библиотеки решающие этот вопрос. Поэтому и спросил.
По поводу защиты ПД в РФ в точку. Я ещё работаю с фин показателями.
Слишком правильный, наверное, в части доступов к информации, поэтому и заморочился маскировкой.
ничего кроме гугла предложить не могу (я же тоже в России)

https://qxf2.com/blog/anonymize-data-using-faker/

https://github.com/samiriff/anonymizer
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Алексей
Мне тоже так кажется, что должны быть библиотеки решающие этот вопрос. Поэтому и спросил.
По поводу защиты ПД в РФ в точку. Я ещё работаю с фин показателями.
Слишком правильный, наверное, в части доступов к информации, поэтому и заморочился маскировкой.
вообще интересно, конечно, дошли ли в Амазоне до какого-нибудь маразма, что анонимизируют данные при передаче между отделами  ?
источник

А

Алексей in Python для анализа данных
Pavel Zheltouhov
вообще интересно, конечно, дошли ли в Амазоне до какого-нибудь маразма, что анонимизируют данные при передаче между отделами  ?
Можно же обмениваться не текстовыми описаниями а id в бд.
Например таблицы с заказами: datetime, client_id, order_id, product_id, price
С данными такой структуры можно работать и делать какие то выводы, но понять что там кроется за id можно только по косвенным признакам. При этом когда заказчик получит результирующую таблицу и сджойнит "свои" данные, то всё станет понятно.
источник

А

Алексей in Python для анализа данных
Другое дело, что работать с понятными данными легче чем с теми же хэшами или idшниками
источник

СИ

Сергей Ильин... in Python для анализа данных
Алексей
Другое дело, что работать с понятными данными легче чем с теми же хэшами или idшниками
порой, можно попросить или самому нагенерить синтетические данные
источник

СИ

Сергей Ильин... in Python для анализа данных
Pavel Zheltouhov
вообще интересно, конечно, дошли ли в Амазоне до какого-нибудь маразма, что анонимизируют данные при передаче между отделами  ?
это не маразм, в общем, как по мне.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Сергей Ильин
это не маразм, в общем, как по мне.
а у вас лично телеметрия вся в винде отключена?
вы же осознаете что противодействуя сбору данных, наносите себе вред?
источник

СИ

Сергей Ильин... in Python для анализа данных
Ruslan
Ребят, подскажите, пожалуйста, кто-нибудь считал эластичность спроса по цене ? Как это делается на большом количестве товаров ? Нужен best practice
это те же самые временные ряды, в общем.
гуглите LSTM,  как вариант.

ну и первые три ссылки хабра можно глянуть:

https://habr.com/ru/company/ozontech/blog/431950/

https://habr.com/ru/company/datawiz/blog/271169/

https://habr.com/ru/post/421429/
источник

СИ

Сергей Ильин... in Python для анализа данных
Pavel Zheltouhov
а у вас лично телеметрия вся в винде отключена?
вы же осознаете что противодействуя сбору данных, наносите себе вред?
не, я о другом совершенно. вы сказали “между отделами”. может ли так быть, что какие-то данные не стоит показывать всем подряд?
источник

А

Алексей in Python для анализа данных
Сергей Ильин
это не маразм, в общем, как по мне.
Поддерживаю.
Нужно балансировать между таким "маразмом" и открытостью данных.
Один передал данные без "маскировки", второй положил их в облако подразделения, третий переслал все данные что бы получатель взял "то что ему надо".
В итоге четвёртый получил информацию, о которой ему, например, знать не положено.
По сути все делали "как делали раньше" только первый решил что это маразм и скинул всю выгрузку.
источник

СИ

Сергей Ильин... in Python для анализа данных
Алексей
Поддерживаю.
Нужно балансировать между таким "маразмом" и открытостью данных.
Один передал данные без "маскировки", второй положил их в облако подразделения, третий переслал все данные что бы получатель взял "то что ему надо".
В итоге четвёртый получил информацию, о которой ему, например, знать не положено.
По сути все делали "как делали раньше" только первый решил что это маразм и скинул всю выгрузку.
+
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Алексей
Поддерживаю.
Нужно балансировать между таким "маразмом" и открытостью данных.
Один передал данные без "маскировки", второй положил их в облако подразделения, третий переслал все данные что бы получатель взял "то что ему надо".
В итоге четвёртый получил информацию, о которой ему, например, знать не положено.
По сути все делали "как делали раньше" только первый решил что это маразм и скинул всю выгрузку.
а как же будет развиваться наука без данных?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Вообще существование Метода Главных Компонент вас не напрягает?
А то,что в широко известном набор данных Нью-Йорского такси можно кучу людей деанонимизировать, не напрягает?
источник

M

Mikhail in Python для анализа данных
гайз, подскажите библиотеку для работы с ОС (интересует создание папки)
источник

А

Алексей in Python для анализа данных
Mikhail
гайз, подскажите библиотеку для работы с ОС (интересует создание папки)
os
источник

M

Mikhail in Python для анализа данных
спасиб, нашел)
источник

СИ

Сергей Ильин... in Python для анализа данных
Pavel Zheltouhov
Вообще существование Метода Главных Компонент вас не напрягает?
А то,что в широко известном набор данных Нью-Йорского такси можно кучу людей деанонимизировать, не напрягает?
есть что-то, что должно быть точно открыто, а что-то - точно нет.
порой это и вопрос безопасности, и вопросы конкуренции / ноу-хау и все вот это
источник