Size: a a a

2021 August 18

DA

Dmitry Archie in QA Alliance
Согласен - прям в таком виде выглядит как голимый наброс. Ща кофе выпью и попробую развернуть мысль
источник

IB

Ildar Bekmansurov in QA Alliance
наверное он имел ввиду, что архитектуру надо продумывать так, чтобы в итоге тебе для любого запроса хватало селекта с аггрегатами без миллиардов джоинов)
источник

s

syclon in QA Alliance
это уже ML)
источник

SP

Straxoff Pavel in QA Alliance
sql там один из самых важных скилов, но ждемс развернутой мысли)
источник

В

Вовка in QA Alliance
чего?
источник

D

Daria in QA Alliance
машин лернинг
источник

AD

Anastasiya Dragun in QA Alliance
Как ты в генералы попал?
источник

DA

Dmitry Archie in QA Alliance
Ну начнём с того, что бигдата - это про то, что не посчитать просто так на одной машине. И обычно это ещё и огромный поток. И управляется он больше через мап-редьюс, потому что если ты сделаешь непростой SQLный запрос к бигдате, то она повесится пытаясь его высчитать
источник

DA

Dmitry Archie in QA Alliance
Блин, чёт чую я, что дар расказчика меня покинул и несу я какую-то дичь. Не выходит у меня сегодня ничего умного.
источник

SP

Straxoff Pavel in QA Alliance
не, норм сказал, ща отвечу
источник

AD

Anastasiya Dragun in QA Alliance
Попей ещё кофе
источник

S1

Sceptic 1234 in QA Alliance
общался я с епам енивхере. там на бенче зп 30 тыщ) конечно они говорят, что такие мощные тостеры как я на бенче не сидят, но чот мне вся эта карусель не оч понравилась.
источник

DA

Dmitry Archie in QA Alliance
То есть если мои тяжелые SQL запросы на 10 000 000 строках считались до 10 минут, то на бигдате - она может прибывать быстрее, чем оно сосчитается и нужны более подходящие методы. И это вообще не SQL
источник

В

Вовка in QA Alliance
кумовство:)
источник

AD

Anastasiya Dragun in QA Alliance
Аааа, ну с этого и надо было начинать
источник

В

Вовка in QA Alliance
Я просто не думал что надо во всем прям разбираться в том числе и бигдата и мл)
источник

В

Вовка in QA Alliance
ааа все, нагуглил ) Я чет не спец в аббревиатурах
источник

DA

Dmitry Archie in QA Alliance
Ага, меня как-то попросили на собеседовании рассказать про DLC, так я и рассказал про дополнения к фолауту и бордерлендс.
источник

DA

Dmitry Archie in QA Alliance
а оказалось что хотели Development LifeCycle
источник

SP

Straxoff Pavel in QA Alliance
1. Да, считается все чаще всего не на одной машине.

2. Мап-редьюс уже относительно устаревшее понятие, но все еще можно встретить, особенно в России кстати, где до сих пор многие для вычислений используют кластера хадупа с хайвом

3. Давно появился Spark, который считает все почти как мап-редьюсы хадупа, но только в памяти и делает это быстрее

4. Когда разработчик пишет какой-то код для ETL - процесса (выгрузить, преобразовать, загрузить), он использует апи хадупа или спарка, так вот оно базируется на SQL). Тоесть без знания SQL, ты не сможешь в этих инструментах пользоваться SQL контекстом

5. По поводу того, что SQL валятся, если у вас действительно большие объемы данных, то вам подходит архитектура data lake, где стремятся к денормализации данных и отказа от предопределенных типов и схем в пользу скорости (aws datalake, azure synapse)

6. В архитектуре даталейка как правило несколько слоев. Последний обычно называют витрины с данными\datamarts, место где лежат нормализованные данные в реляционных таблицах. Это по сути то ради чего все это делалось. Место куда приходят BI разрабы, чтобы на основе этих данных сделать дашборды, аналитики приходят понятно зачем, сатанисты берут данные, чтобы свои модели блядские учить ну и так далее. Так вот здесь тоже без SQL не обойтись, тем более что на таких слоях он отлично подходит
источник