Size: a a a

AI / Big Data / Machine Learning

2016 August 31

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning
Но было бы интересно собрать такую статистику и посмотреть зависимости
источник

PS

Pavel Stoyanov in AI / Big Data / Machine Learning
Ребята, всем привет)
источник

ID

Ivan Drokin in AI / Big Data / Machine Learning
И тебе привет=)
источник

ЛЛ

Леонид Л in AI / Big Data / Machine Learning
aodzaki.toko
забано... недавно читал перевод статьи на хабре, которая нелестно описывает работу tensorflow.
не хочу начинать холивар, т.к. у меня опыта в этом деле мало.
Ни одного минуса в той статье не было. Только "у нас уже Theano, зачем нам еще либа. Это ж не минус :)
источник

ЛЛ

Леонид Л in AI / Big Data / Machine Learning
/dev/urandon ¯\_(ツ)_/¯
дёргать MKL, BLAS и LAPACK ещё вполне допустимо
Дергать blas и lapack для нейронов - это как сайт на си писать. Можно, но как-то не принято.
источник

NK

ID:111648680 in AI / Big Data / Machine Learning
Куда лучше записывать логи профилирования?
источник

S

Skeptic in AI / Big Data / Machine Learning
Есть задача - сохранять очень много текстовой информации (в перспективе - терабайты). По ряду причин, все должно храниться в рамках одного сервера. ОС Linux.

Какую реляционную СУБД выбрать для обеспечения как приемлемой скорости записи (данные поступают со скоростью порядка пары мегабайт в секунду), так и хорошей скорости чтения (планируются сложные запросы либо с джойнами, либо серии подряд идущих запросов без джойнов)?

Запросы относительно редки, но время ожидания тоже не должно быть большим. Сохранность данных на первом месте.

Сейчас рассматриваю MariaDB+TokuDB, Firebird, Cassandra (сильно не уверен из-за ее нереляционности). Склоняюсь к первому, но, может, у кого-нибудь были похожие задачи?
источник

M

Magistr in AI / Big Data / Machine Learning
Каков тип текстовой информации ? Каков размер записи ?
источник

SM

Sergey Martynov in AI / Big Data / Machine Learning
В зависимости от того, какой характер нагрузки, решения могут быть очень разными. Чего больше: чтения или записи? Выборки последовательные или рандомные? По каким критериям идет выборка? Как планируется шардить данные, какие требования к резервированию? и т.д. т т.п… В перспективе: под узкие специфичные задачи на больших масштабах, как правило, выгоднее свое кастомное хранилище, написанное на си (возможно, как плагин к какой-то системе). Только не надо с этого начинать, поставьте любую СУБД (ту же maria) и дойдите с ней хотя бы до N гигабайт .)
источник

S

Skeptic in AI / Big Data / Machine Learning
Sergey Martynov
В зависимости от того, какой характер нагрузки, решения могут быть очень разными. Чего больше: чтения или записи? Выборки последовательные или рандомные? По каким критериям идет выборка? Как планируется шардить данные, какие требования к резервированию? и т.д. т т.п… В перспективе: под узкие специфичные задачи на больших масштабах, как правило, выгоднее свое кастомное хранилище, написанное на си (возможно, как плагин к какой-то системе). Только не надо с этого начинать, поставьте любую СУБД (ту же maria) и дойдите с ней хотя бы до N гигабайт .)
Больше записи.

Выборки рандомные, чаще по ключевым полям, но относительно редкая часть запросов будет по LIKE %бла%блабла%.

Про шардинг пока не думал, предполагается все хранить на одном сервере, соответственно, на одной ноде СУБД.

Сохранность данных очень важна, но там, скорее всего, будет RAID с полным зеркалированием.

Начинать со своего велосипеда тоже не очень-то хочется )
источник

S

Skeptic in AI / Big Data / Machine Learning
Magistr
Каков тип текстовой информации ? Каков размер записи ?
Строки UTF-8 переменной длины. От пары символов до нескольких мегабайт.
источник

a

aodzaki.toko in AI / Big Data / Machine Learning
Мне кажется, что стоит обратить внимание не только на выбор СУБД, но и раздел файловой системы, где будет хранилище.
источник

S

Skeptic in AI / Big Data / Machine Learning
А что насчет PostgreSQL? Есть ли выгода про сравнению с TokuDB?
источник

S

Skeptic in AI / Big Data / Machine Learning
aodzaki.toko
Мне кажется, что стоит обратить внимание не только на выбор СУБД, но и раздел файловой системы, где будет хранилище.
Тоже верно.
источник

a

aodzaki.toko in AI / Big Data / Machine Learning
Тут нужно пробовать. ПГ хороша. Но её нужно уметь настраивать.
источник

a

aodzaki.toko in AI / Big Data / Machine Learning
Мне кажется, что стоит попробовать maria+toku. Если нет, то уже думать.
источник

S

Skeptic in AI / Big Data / Machine Learning
Я еще думал насчёт Tarantool, но тогда придется полностью пересматривать структуру базы, приводя ее к key-value схеме. И далеко не факт, что это даст какие-либо преимущества.
источник

S

Skeptic in AI / Big Data / Machine Learning
aodzaki.toko
Мне кажется, что стоит попробовать maria+toku. Если нет, то уже думать.
Наверное, так и сделаю.
источник

M

Magistr in AI / Big Data / Machine Learning
А бизнес задача какая ? так мб проще будет посоветовать базу
источник

a

aodzaki.toko in AI / Big Data / Machine Learning
Magistr
А бизнес задача какая ? так мб проще будет посоветовать базу
Поддерживаю
источник