А numpy предкомпилированный идет? Как его вызов вообще происходит? Где-то же должна быть прослойка, не потеряется в прослойках производительность? А то загрузи numpy в память, скопируй аргументы (вряд-ли он их может напрямую с python объектов читать, какая-то трансляция всё равно происходит), передай управление... Те еще телодвижения, всё таки думаешь не потеряем в скорости?
да, бинари, внутри дергается clapack и cblas.
можно ли напрямую смаппить - зависит от объекта, но лист в массив вроде можно без копирования памяти преобразовать.
В сишной части копирований и преобразований нет, она напрямую совместима с нампаем.
Но все зависит от задачи канешн