Size: a a a

2020 December 09

R

Rodion in Data Engineers
Всем добрый вечер. Подскажите, знаете ли вы какие-то инструменты для нормализации данных?
Нужно таблицу csv мапить в граф => нормализовать к 3nf, не знаю как к задаче подступиться.
источник

AZ

Anton Zadorozhniy in Data Engineers
Rodion
Всем добрый вечер. Подскажите, знаете ли вы какие-то инструменты для нормализации данных?
Нужно таблицу csv мапить в граф => нормализовать к 3nf, не знаю как к задаче подступиться.
duckdb + sql
источник

R

Rodion in Data Engineers
Anton Zadorozhniy
duckdb + sql
Предлагаете руками раскидывать?
источник

R

Roman in Data Engineers
Anton Zadorozhniy
duckdb + sql
Реально так хороша, как пишут о ней на её сайте?
источник

AZ

Anton Zadorozhniy in Data Engineers
Rodion
Предлагаете руками раскидывать?
SQL написать можно
источник

AZ

Anton Zadorozhniy in Data Engineers
Roman
Реально так хороша, как пишут о ней на её сайте?
Мне очень понравилась
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
Rodion
Предлагаете руками раскидывать?
Но вы лучше уточните вопрос: в какой платформе, где должны 3НФ таблицы оказаться
источник

R

Rodion in Data Engineers
Anton Zadorozhniy
Но вы лучше уточните вопрос: в какой платформе, где должны 3НФ таблицы оказаться
Да, действительно не очень четко сформулировал:
1. Хочется табличные данные из файла(csv) превращать в полный связный граф
2. В моем понимании это есть один из вариантов процесса приведения данных к 3нф.
3. Засовывать енто в любую рел-бд как набор результирующих табличек,


Платформа - линукс (если верно понял вопрос)
Таблицы руками я могу нормализовать, но хорошо бы это делать автоматически.
источник

NB

Nikita Bakanchev in Data Engineers
А как ты нормализовать собрался без функциональных зависимостей?
источник

NB

Nikita Bakanchev in Data Engineers
это же только на очень большой выборке можно автоматизировать
источник

AZ

Anton Zadorozhniy in Data Engineers
Rodion
Да, действительно не очень четко сформулировал:
1. Хочется табличные данные из файла(csv) превращать в полный связный граф
2. В моем понимании это есть один из вариантов процесса приведения данных к 3нф.
3. Засовывать енто в любую рел-бд как набор результирующих табличек,


Платформа - линукс (если верно понял вопрос)
Таблицы руками я могу нормализовать, но хорошо бы это делать автоматически.
Так а информация о сущностях которые представлены в этом файле, их связях - она в каком то виде доступна?
источник

AZ

Anton Zadorozhniy in Data Engineers
Каждая колонка это своя сущность и ее натуральный ключ? Сколько колонок столько и сущностей?
источник

R

Rodion in Data Engineers
Anton Zadorozhniy
Каждая колонка это своя сущность и ее натуральный ключ? Сколько колонок столько и сущностей?
Да, колонка = сущность.
источник

R

Rodion in Data Engineers
Nikita Bakanchev
А как ты нормализовать собрался без функциональных зависимостей?
фактически, строка и есть твоя функциональная зависимость.
источник

NB

Nikita Bakanchev in Data Engineers
Тут есть пример разбора в том числе и плоского файла http://www.cs.umd.edu/~abadi/papers/schemagen-sigmod16.pdf, но это академический пейпер
источник

R

Rodion in Data Engineers
Nikita Bakanchev
Тут есть пример разбора в том числе и плоского файла http://www.cs.umd.edu/~abadi/papers/schemagen-sigmod16.pdf, но это академический пейпер
класс, спасибо!
(как раз сижу научные статьи читаю, окромя них не нашел ничего толкового)
источник

NB

Nikita Bakanchev in Data Engineers
Но вообще мне кажется есть инструменты которые это делают сам, но опять же тебе нужна очень большая выборка
источник

NB

Nikita Bakanchev in Data Engineers
так как на маленькой выборке у тебя сформируются ошибочные зависимости
источник

NB

Nikita Bakanchev in Data Engineers
если я правильно понимаю задачу, что у тебя на входе набор атрибутов (a1, .., an), а ты хочешь преобразовать это в набор сущностей (ak1, ak2, ak3)... (an1 an2) и т.п. в 3НФ
источник