1. Да, считается все чаще всего не на одной машине.
2. Мап-редьюс уже относительно устаревшее понятие, но все еще можно встретить, особенно в России кстати, где до сих пор многие для вычислений используют кластера хадупа с хайвом
3. Давно появился Spark, который считает все почти как мап-редьюсы хадупа, но только в памяти и делает это быстрее
4. Когда разработчик пишет какой-то код для ETL - процесса (выгрузить, преобразовать, загрузить), он использует апи хадупа или спарка, так вот оно базируется на SQL). Тоесть без знания SQL, ты не сможешь в этих инструментах пользоваться SQL контекстом
5. По поводу того, что SQL валятся, если у вас действительно большие объемы данных, то вам подходит архитектура data lake, где стремятся к денормализации данных и отказа от предопределенных типов и схем в пользу скорости (aws datalake, azure synapse)
6. В архитектуре даталейка как правило несколько слоев. Последний обычно называют витрины с данными\datamarts, место где лежат нормализованные данные в реляционных таблицах. Это по сути то ради чего все это делалось. Место куда приходят BI разрабы, чтобы на основе этих данных сделать дашборды, аналитики приходят понятно зачем, сатанисты берут данные, чтобы свои модели блядские учить ну и так далее. Так вот здесь тоже без SQL не обойтись, тем более что на таких слоях он отлично подходит