Телеграмм чат группы pydata

Size: a a a

Python для анализа данных

2535 membersпожаловаться на группу

2021 October 18

helby in Python для анализа данных

можете скинуть ваши данные, хотя бы ненастоящие, но по структуре нужные?

источник

20:47пожаловаться #1

2021 October 19

PAWPAW in Python для анализа данных

Ilya Shutov in Python для анализа данных

тут данные принципиально неструктурированные.
никакая либа или трансформация не помогут.
надо парсер многострочных записей писать.

ничего сложного, сами по себе строчки структурированные + есть якорные фразы типа "склад" или "покупатель".

M&S ??

источник

10:27пожаловаться #3

Ilya Shutov in Python для анализа данных

как обычно, тут тишина.

я за пять минут накидал прототипчик.
вариантов решения масса.
взял самый быстрый.

но на R, уж не обессудьте.
идеи все там прозрачные, сами на питон перекладывайте.
"10" содержательных строк, не велик труд.

{r}
# считываем сырье и формируем предварительную табличку на разбор
raw_dt <- here::here("data", "etl", "m_and_s.zip") %>%
  readr::read_lines(skip = 2) %>%
  tibble::enframe(name = NULL) %>%
  setDT()

temp_dt <- raw_dt %>%
  # расставляем маркеры начала записей по якорным словам
  .[, line_start := stri_detect_regex(value, 
                                      pattern = "склад")] %>%
  .[, idx := cumsum(line_start)] %>%
  # разделяем на колонки и заполняем пустоты (делаем прямоугольное представление)
  .[line_start == TRUE, part1 := value] %>%
  .[line_start == FALSE, part2 := value] %>%
  # для быстрой проливки строк можно делать группировки, locf и пр.
  # выберем вариант data.table, проливаем первую строку по группам
  .[, part1 := head(part1, 1), by = idx] %>%
  # забираем только полезные данные
  .[!is.na(part2)] %>%
  .[, data := stri_join(part1, part2)]

# отправляем повторно на штатный парсер csv

df <- stri_c(temp_dt$data, collapse = "\n") %>%
  readr::read_delim(
    delim = ";",
    col_names = c("cheсk", "store", "customer", "product_name", "none", "count", "product_price")
  )

источник

11:05пожаловаться #4

Ilya Shutov in Python для анализа данных

источник

11:05пожаловаться #5

PAWPAW in Python для анализа данных

Спасибо !

источник

11:21пожаловаться #6

Kurah in Python для анализа данных

Всем привет!
Такая задача: на вход подаются строки с элементами через запятую(иногда 1 элемент), нужно вывести самую часту пару элементов в одной строке

Ввод:
aa,aa,cc
bb,aa
bb,aa
aa,cc
aa,aa,bb
cc,aa
bb,bb

Вывод:
aa,bb

источник

16:09пожаловаться #7

Kurah in Python для анализа данных

Что посоветуете ?

источник

16:09пожаловаться #8

АМ

Алексей Макаров... in Python для анализа данных

Пройти по каждому списку itertools.combinations, а потом посчитать частотность комбинаций через counter

источник

16:12пожаловаться #9

Slavik in Python для анализа данных