Жмака
Привет. Пытаюсь на EMR читать паркеты с S3 (лист с путями к каждому файлу в spark read parquet). Файлов 25000, поэтому очень медленно. Помимо добавления экзекьбторов можно еще как то оптимизировать? Пытался через spark sql с условием filter(есть партиции по дате), вроде быстрее. С просто запросом sql (select from db.table (запрос в athena) ) падает с ошибкой connection refused. Какой вариант будет быстрее?
в афине ctas создать таблицу с форматом паркет/орк и фиксированным локейшеном. Получится меньше файлов намного и только то, что вам нужно. И потом из этого локейшена вычитать спарком. Афина, скорее всего, намного быстрее прочитает эти файлы и создаст то, что вам нужно.