Чуть больше про инфраструктуру для AI вычислений. В интервью из предыдущего поста упоминается совместная архитектура Nvidia и NetApp для AI. В качестве вычислительных ресурсов используются NVIDIA DGX-1, в каждом из которых по 8 GPU Tesla V100, для хранения данных можно использовать NetApp AFF A700s или A800, сеть на Cisco Nexus
3232C 100GbE. Решение позволяет легко и независимо масштабировать вычислительные и storage ресурсы. Одной A700 хватает на 4 NVIDIA DGX-1, а A800 вытягивает нагрузку с 5 NVIDIA DGX-1. Дальше можно добавлять AFF контроллеры в кластер, до 24 штук. Это всё прозрачно для серверов, так как используется NFS и FlexGroup. Подробнее об архитектуре можно почитать в тематическом white paper —
WP-7267. Scalable AI Infrastructure. Designing For Real-World Deep Learning Use Cases. Там же есть результаты тестирования одной AFF A700s c DGX-1. Ну и кто-то наверное слышал про аналогичную архитектуру от Pure Storage под названием AIRI, маркетинг Pure во всю трубит об этом решении. И вот со сравнением результатов тестирования AFF A700s и Pure AIRI произошла "забавная" история. Об этом я напишу подробнее.
А если интересно почитать про подход NetApp к построению инфраструктуры для AI, то советую еще
почитать Santosh Rao (Senior Technical Director for the Data ONTAP Engineering Group) или даже
посмотреть видео с его выступлением на Storage Field Day.
В постах в блоге NetApp он рассказывает про то, на что обращать внимание при выборе файловой системы для AI вычислений, как NetApp обеспечивает передачу данных по конвееру данных от edge к core и в облако.
#nvidia #AI #ML #DL #AFF