Size: a a a

Python для анализа данных

2021 September 24

IS

Ilya Shutov in Python для анализа данных
не нужен. мы уже понимаем, что:
1. есть скрипт с < 50 строк
2. конечный потребитель — windows менеджер, который ничего слышать и думать не хочет.

этого вполне достаточно, чтобы делать первичные выводы. Не согласны?
источник

AD

Andrew Dakhnovsky in Python для анализа данных
да, наверное
в принципе, возможностей экселя + встроенного вба должно хватать с головой
источник

IS

Ilya Shutov in Python для анализа данных
очень часто отвечать приходится отнюдь не на заданный вопрос, а сделать шаг или два назад к исходной задаче и понять, что нужно делать вообще совершенно иную вещь.
источник

AD

Andrew Dakhnovsky in Python для анализа данных
да, конечно
исходную задачу тоже интересно было бы услышать
источник

D

Denis in Python для анализа данных
Просто Я сейчас учусь на Дата Аналитика, вот и пристаю к коллегам на предмет возможности улучшить то, что они сейчас делают с excel.
Понятно, что про питон никто не слышал.
источник

D

Denis in Python для анализа данных
Провёл дома ряд экспериментов, выводы таковы:
 вклад в паузу между запуском и первым print дает как наличие библиотеки pandas, так и работа антивируса. Без импорта библиотек и выключенном антивирусе скрипт работает мгновенно.
 замена импорта всей библиотеки pandas на импорт только функции DataFrame при создание одного пустого датафрейма никаких заметных отличий в производительности не дает. Пауза между запуском и первым print одинаковая (или незаметные отклонения меньше секунды). По сравнению с «чистым» скриптом размер вырос с 6 до 50 мб, пауза от запуска до первого print около 15 секунд
 Наличие антивируса вносит самый весомый вклад, тк увеличивает паузу от запуска до первого print файла из предыдущего пункта до 94 секунд.

Ума не приложу, что теперь с этим делать, тк корпоративный антивирус отключать нельзя
источник

D

Denis in Python для анализа данных
Время работы от первого print до контрольного print в конце практически везде одинаково, около 3 секунд, те сам скрипт отрабатывает быстро
источник
2021 September 25

О

Оксана Лёвкина... in Python для анализа данных
Вам же сразу написали - добавить в исключения антивируса.
источник

D

Denis in Python для анализа данных
Это корпоративный антивирус, вряд ли это вообще возможно согласовать

С этой точки зрения проще один раз согласовать установку питона

Я думал есть технические средства решения этого вопроса, например альтернативный компилятор
источник

VM

Valerii Mamontov in Python для анализа данных
Поговорите с технарями (системным администратором):
1. Можно добавить папку в исключения, чтобы при написании нового экзешника не проходить весь путь заново.
2. Можно поднять (создать) виртуальную машину внутри корпоративной сети. Установить на ней питон и прочее. Используя фреймворк flask сделать уже не script.exe, а одностраничное мини-приложение (по сути это будет exe, завернутый в html). Коллеги будут загружать в него отчет и на выходе получать обработанные данные. Две кнопки на странице: загрузить и скачать.
источник

D

Denis in Python для анализа данных
Спасибо 😁 С flask идея интересная;)
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Конверторов скриптов в exe существует несколько штук.
Следующий по списку - py2exe.
Ну и вы опцию с каталогом попробовали?
источник

D

Denis in Python для анализа данных
В понедельник выйду на работу, опробую!;) Не знал, что есть —onedir, спасибо за совет!
источник

E

Eduard in Python для анализа данных
Привет. В sklearn countvectorizer как убрать сплит по точке? При работе с  dns именами такое мешает
источник

PZ

Pavel Zheltouhov in Python для анализа данных
А почему мешает? я бы посчитал имя домена некой идиомой.
Если убрать сплит по точке, тогда и предложения могут сцепиться.
источник

E

Eduard in Python для анализа данных
Там просто список доменов, предложений нет
источник

E

Eduard in Python для анализа данных
'(?u)\b\w\w+\b' вот из этого убрать точку
источник

PZ

Pavel Zheltouhov in Python для анализа данных
то есть пытаетесь ускорить какой-то алгоритм не связанный с NLP, но подходящий по сути?
источник

E

Eduard in Python для анализа данных
Там это в tfidf потом пойдет
источник

PZ

Pavel Zheltouhov in Python для анализа данных
ну тут точка подразумевается спрятанной в \w и \b.
А если все-таки tfidf, почему бы не оставить как есть?
источник