Size: a a a

AI / Big Data / Machine Learning

2016 August 31

ЕП

Евгений Поляков in AI / Big Data / Machine Learning
вот что для упаковки геномов специально придумали: https://github.com/jkbonfield/rans_static
источник

ЕП

Евгений Поляков in AI / Big Data / Machine Learning
но это еще без lz, т.е. не подойдет для упаковки строчек в условной базе данных
источник

a

aodzaki.toko in AI / Big Data / Machine Learning
Спасибо, ознакомлюсь на досуге
источник
2016 September 01

S

Skeptic in AI / Big Data / Machine Learning
Евгений Поляков
Тарантул - это такой redis + application server, оба плохо работают с большими ключами, ну и хранят только столько, сколько помещается в память. Cassandra не масштабируется при ключах в мегабайты длиной. Вообще, хранить в базе данных что-то большее килобайт - путь к io stalls. Хранить в одном месте байты и мегабайты - похоже на ошибку. Искать по этому с помощью like% - вы точно понмаете, что делаете?
Я в процессе обдумывания самой идеи, так что я пока еще не совсем понимаю, что делаю, т.к. ничего не делаю.

Ваш комментарий весьма дельный, кстати. Спасибо.
источник

S

Skeptic in AI / Big Data / Machine Learning
Евгений Поляков
что за строчки в мегабайты длиной в одном ключе? их точно нельзя порезать на части?
Ну это, скорее всего, будут не ключевые поля, но по ним нужен полнотекстовый поиск. Надо будет посмотреть на эластик.
источник

S

Skeptic in AI / Big Data / Machine Learning
Всем, кто отвечал, спасибо!
источник

ЕП

Евгений Поляков in AI / Big Data / Machine Learning
полнотекстовый поиск на одной ноде лучше sphinx, его индекс заметно меньше, но он требует хранить в памяти атрибуты (для быстрого поиска, впрочем, можно положить на диск в спициальных конфигах)
источник

ЕП

Евгений Поляков in AI / Big Data / Machine Learning
в принципе, sphinx как-то живет и на нескольких нодах, но я не пробовал, а для эластика такая конфигурация родная
источник

PR

Paul Rudnitskiy in AI / Big Data / Machine Learning
Евгений Поляков
полнотекстовый поиск на одной ноде лучше sphinx, его индекс заметно меньше, но он требует хранить в памяти атрибуты (для быстрого поиска, впрочем, можно положить на диск в спициальных конфигах)
а сфинкс научился поддерживать что нибудь кроме mysql? Лично я голосую за эластик. Главное - его настроить, ибо настройка из коробки ужасна, а вот его гибкость в настройке - почти безгранична
источник

ЕП

Евгений Поляков in AI / Big Data / Machine Learning
сфинкс умеет mysql, postresql, mssql и odbc, есть xml загрузчик (не знаю, кто им пользуется), и относительно недавно появились tsv/csv загрузчики
источник

ЕП

Евгений Поляков in AI / Big Data / Machine Learning
сфинкс не хранит оригиналы "в себе", так что нужен внешний сторадж, и обычно это какая-то популярная sql база, в этом плане тоже большое отличие от эластика
источник

PR

Paul Rudnitskiy in AI / Big Data / Machine Learning
Евгений Поляков
сфинкс не хранит оригиналы "в себе", так что нужен внешний сторадж, и обычно это какая-то популярная sql база, в этом плане тоже большое отличие от эластика
я знаю, что такое сфинкс
источник

PR

Paul Rudnitskiy in AI / Big Data / Machine Learning
я с ним работал во времена mysql 5.0 и тогда он мог только с mysql работать. Это похоронило надежду на перевод одного крупного проекта на постгрес
источник

ЕП

Евгений Поляков in AI / Big Data / Machine Learning
хм, может быть, мне казалось, что постгрес он всегда умел, но наверное я забыл
источник

PR

Paul Rudnitskiy in AI / Big Data / Machine Learning
нет, раньше точно не умел. Если теперь умеет - это отличная новость
источник

ЕП

Евгений Поляков in AI / Big Data / Machine Learning
да, сейчас без проблем загружает, там даже odbc есть, так что из любого sql сможет, хоть из db2 или оракла какого
источник

IS

Ilya Sereda in AI / Big Data / Machine Learning
Евгений Поляков
сфинкс не хранит оригиналы "в себе", так что нужен внешний сторадж, и обычно это какая-то популярная sql база, в этом плане тоже большое отличие от эластика
Можно хранить данные в качестве атрибутов (строки/булы/числа)
источник

a

aodzaki.toko in AI / Big Data / Machine Learning
привет!!!
источник

АЩ

Алексей Щукарев in AI / Big Data / Machine Learning
aodzaki.toko
привет!!!
Привет :)
источник

SK

Stepan K in AI / Big Data / Machine Learning
Господа вашу бих дату в большом автосервисе можно использовать? Есть готовый бизнес план/идея как юзать чтобы показать хозяину? И вам хорошо будет и мне?
источник