Телеграмм чат группы qalliance страница 12128

Size: a a a

QA Alliance

1383 membersпожаловаться на группу

2021 August 18

Dmitry Archie in QA Alliance

Согласен - прям в таком виде выглядит как голимый наброс. Ща кофе выпью и попробую развернуть мысль

источник

10:57пожаловаться #1

Ildar Bekmansurov in QA Alliance

наверное он имел ввиду, что архитектуру надо продумывать так, чтобы в итоге тебе для любого запроса хватало селекта с аггрегатами без миллиардов джоинов)

источник

10:57пожаловаться #2

syclon in QA Alliance

это уже ML)

источник

10:57пожаловаться #3

Straxoff Pavel in QA Alliance

sql там один из самых важных скилов, но ждемс развернутой мысли)

чего?

машин лернинг

Anastasiya Dragun in QA Alliance

Как ты в генералы попал?

источник

11:01пожаловаться #7

Dmitry Archie in QA Alliance

Ну начнём с того, что бигдата - это про то, что не посчитать просто так на одной машине. И обычно это ещё и огромный поток. И управляется он больше через мап-редьюс, потому что если ты сделаешь непростой SQLный запрос к бигдате, то она повесится пытаясь его высчитать

источник

11:01пожаловаться #8

Dmitry Archie in QA Alliance

Блин, чёт чую я, что дар расказчика меня покинул и несу я какую-то дичь. Не выходит у меня сегодня ничего умного.

источник

11:02пожаловаться #9

Straxoff Pavel in QA Alliance

не, норм сказал, ща отвечу

источник

11:02пожаловаться #10

Anastasiya Dragun in QA Alliance

Попей ещё кофе

источник

11:03пожаловаться #11

Sceptic 1234 in QA Alliance

общался я с епам енивхере. там на бенче зп 30 тыщ) конечно они говорят, что такие мощные тостеры как я на бенче не сидят, но чот мне вся эта карусель не оч понравилась.

источник

11:04пожаловаться #12

Dmitry Archie in QA Alliance

То есть если мои тяжелые SQL запросы на 10 000 000 строках считались до 10 минут, то на бигдате - она может прибывать быстрее, чем оно сосчитается и нужны более подходящие методы. И это вообще не SQL

источник

11:05пожаловаться #13

Вовка in QA Alliance

кумовство:)

источник

11:07пожаловаться #14

Anastasiya Dragun in QA Alliance

Аааа, ну с этого и надо было начинать

источник

11:07пожаловаться #15

Вовка in QA Alliance

Я просто не думал что надо во всем прям разбираться в том числе и бигдата и мл)

источник

11:07пожаловаться #16

Вовка in QA Alliance

ааа все, нагуглил ) Я чет не спец в аббревиатурах

источник

11:10пожаловаться #17

Dmitry Archie in QA Alliance

Ага, меня как-то попросили на собеседовании рассказать про DLC, так я и рассказал про дополнения к фолауту и бордерлендс.

источник

11:11пожаловаться #18

Dmitry Archie in QA Alliance

а оказалось что хотели Development LifeCycle

источник

11:11пожаловаться #19

Straxoff Pavel in QA Alliance

1. Да, считается все чаще всего не на одной машине.

2. Мап-редьюс уже относительно устаревшее понятие, но все еще можно встретить, особенно в России кстати, где до сих пор многие для вычислений используют кластера хадупа с хайвом

3. Давно появился Spark, который считает все почти как мап-редьюсы хадупа, но только в памяти и делает это быстрее

4. Когда разработчик пишет какой-то код для ETL - процесса (выгрузить, преобразовать, загрузить), он использует апи хадупа или спарка, так вот оно базируется на SQL). Тоесть без знания SQL, ты не сможешь в этих инструментах пользоваться SQL контекстом

5. По поводу того, что SQL валятся, если у вас действительно большие объемы данных, то вам подходит архитектура data lake, где стремятся к денормализации данных и отказа от предопределенных типов и схем в пользу скорости (aws datalake, azure synapse)

6. В архитектуре даталейка как правило несколько слоев. Последний обычно называют витрины с данными\datamarts, место где лежат нормализованные данные в реляционных таблицах. Это по сути то ради чего все это делалось. Место куда приходят BI разрабы, чтобы на основе этих данных сделать дашборды, аналитики приходят понятно зачем, сатанисты берут данные, чтобы свои модели блядские учить ну и так далее. Так вот здесь тоже без SQL не обойтись, тем более что на таких слоях он отлично подходит

источник

11:12пожаловаться #20