Телеграмм чат группы bigdata

забано... недавно читал перевод статьи на хабре, которая нелестно описывает работу tensorflow.
не хочу начинать холивар, т.к. у меня опыта в этом деле мало.

Ни одного минуса в той статье не было. Только "у нас уже Theano, зачем нам еще либа. Это ж не минус :)

источник

18:33пожаловаться

ЛЛ

Леонид Л in AI / Big Data / Machine Learning

/dev/urandon ¯\_(ツ)_/¯

дёргать MKL, BLAS и LAPACK ещё вполне допустимо

Дергать blas и lapack для нейронов - это как сайт на си писать. Можно, но как-то не принято.

источник

18:34пожаловаться

NK

ID:111648680 in AI / Big Data / Machine Learning

Куда лучше записывать логи профилирования?

источник

19:48пожаловаться

S

Skeptic in AI / Big Data / Machine Learning

Есть задача - сохранять очень много текстовой информации (в перспективе - терабайты). По ряду причин, все должно храниться в рамках одного сервера. ОС Linux.

Какую реляционную СУБД выбрать для обеспечения как приемлемой скорости записи (данные поступают со скоростью порядка пары мегабайт в секунду), так и хорошей скорости чтения (планируются сложные запросы либо с джойнами, либо серии подряд идущих запросов без джойнов)?

Запросы относительно редки, но время ожидания тоже не должно быть большим. Сохранность данных на первом месте.

Сейчас рассматриваю MariaDB+TokuDB, Firebird, Cassandra (сильно не уверен из-за ее нереляционности). Склоняюсь к первому, но, может, у кого-нибудь были похожие задачи?

источник

21:14пожаловаться

M

Magistr in AI / Big Data / Machine Learning

Каков тип текстовой информации ? Каков размер записи ?

источник

21:16пожаловаться

SM

Sergey Martynov in AI / Big Data / Machine Learning

В зависимости от того, какой характер нагрузки, решения могут быть очень разными. Чего больше: чтения или записи? Выборки последовательные или рандомные? По каким критериям идет выборка? Как планируется шардить данные, какие требования к резервированию? и т.д. т т.п… В перспективе: под узкие специфичные задачи на больших масштабах, как правило, выгоднее свое кастомное хранилище, написанное на си (возможно, как плагин к какой-то системе). Только не надо с этого начинать, поставьте любую СУБД (ту же maria) и дойдите с ней хотя бы до N гигабайт .)

источник

21:18пожаловаться

S

Skeptic in AI / Big Data / Machine Learning

Sergey Martynov

В зависимости от того, какой характер нагрузки, решения могут быть очень разными. Чего больше: чтения или записи? Выборки последовательные или рандомные? По каким критериям идет выборка? Как планируется шардить данные, какие требования к резервированию? и т.д. т т.п… В перспективе: под узкие специфичные задачи на больших масштабах, как правило, выгоднее свое кастомное хранилище, написанное на си (возможно, как плагин к какой-то системе). Только не надо с этого начинать, поставьте любую СУБД (ту же maria) и дойдите с ней хотя бы до N гигабайт .)

Больше записи.

Выборки рандомные, чаще по ключевым полям, но относительно редкая часть запросов будет по LIKE %бла%блабла%.

Про шардинг пока не думал, предполагается все хранить на одном сервере, соответственно, на одной ноде СУБД.

Сохранность данных очень важна, но там, скорее всего, будет RAID с полным зеркалированием.

Начинать со своего велосипеда тоже не очень-то хочется )

источник

21:24пожаловаться

S

Skeptic in AI / Big Data / Machine Learning

Magistr

Каков тип текстовой информации ? Каков размер записи ?

Строки UTF-8 переменной длины. От пары символов до нескольких мегабайт.

источник

21:25пожаловаться

a

aodzaki.toko in AI / Big Data / Machine Learning

Мне кажется, что стоит обратить внимание не только на выбор СУБД, но и раздел файловой системы, где будет хранилище.

источник

21:26пожаловаться

S

Skeptic in AI / Big Data / Machine Learning

А что насчет PostgreSQL? Есть ли выгода про сравнению с TokuDB?

источник

21:26пожаловаться

S

Skeptic in AI / Big Data / Machine Learning

aodzaki.toko

Мне кажется, что стоит обратить внимание не только на выбор СУБД, но и раздел файловой системы, где будет хранилище.

Тоже верно.

источник

21:27пожаловаться

a

aodzaki.toko in AI / Big Data / Machine Learning

Тут нужно пробовать. ПГ хороша. Но её нужно уметь настраивать.

источник

21:28пожаловаться

a

aodzaki.toko in AI / Big Data / Machine Learning

Мне кажется, что стоит попробовать maria+toku. Если нет, то уже думать.

источник

21:29пожаловаться

S

Skeptic in AI / Big Data / Machine Learning

Я еще думал насчёт Tarantool, но тогда придется полностью пересматривать структуру базы, приводя ее к key-value схеме. И далеко не факт, что это даст какие-либо преимущества.

источник

21:37пожаловаться

S

Skeptic in AI / Big Data / Machine Learning

aodzaki.toko

Мне кажется, что стоит попробовать maria+toku. Если нет, то уже думать.

Наверное, так и сделаю.

источник

21:39пожаловаться

M

Magistr in AI / Big Data / Machine Learning

А бизнес задача какая ? так мб проще будет посоветовать базу