вы легко можете посчитать: какое у вас целевое время выгрузки, сколько таблиц, какой размер кластера (скуп запускает мапперы, минимум один на таблицу, максимум - маппер на каждую партицию и сабпартицию)
Может и больше мапперов создать, если указать в параметрах. И --split-by может быть по какому-то произвольному полю, не обязательно соответствующиму партициям и субпартициям. Коннекторы, конечно, могут быть более интеллектуальными и использовать особенности базы-источника, как oraoop
Мне очень интересно, что имеется в виду под оверхедом для маленьких таблиц и вообще? Имеется в виду оверхед создания заданий map-reduce, или что-то ещё? Вообще, выбор sqoop как CDC - это разумно?