Телеграмм чат группы bigdata

Посоны, хотел бы опять поднять тему model parallelism-а. Пытаюсь файнтюнить модель, и мне не хватает 16 гигов на одной видюхе. Опчитавшись про модненькие GPU V100, что для них на серверах предусмотрены NVSwitch для межпроцессорной коммуникации, у меня в голове сложилось мнение, что несколько GPU V100 работают и видимы для процесса как одна большая видеокарта, и никаких дополнительных телодвижений делать не надо чтоб модель жила сразу на нескольких видюхах. Но недавний эксперимент с aws инстансом на 4 видеокарты показал что это не так. В nvtop я вижу 4 отдельных видюхи. Из них грузится под завязку только одна, и потом процесс вылетает на memory_allocation. Есть ли возможность реализовать параллелизм без плясок с бубном, ручным разбиением модели по GPU с помощью with tf.device или всяких хороводов? При том что ни то ни другое не реализует настоящий параллелизм.

источник

13:28пожаловаться #12

A

Appa in AI / Big Data / Machine Learning

Ах да, использую TF2.1

источник

13:28пожаловаться #13

Λ

Λepus in AI / Big Data / Machine Learning

your-mirror

Ребят, я уже тест прошел, но не могу понять часть вопрос, поясните плиз

Тут все ответы неверные

источник

13:32пожаловаться #14

Λ

Λepus in AI / Big Data / Machine Learning

your-mirror

Второй не верный, т.к. нормализацию мы делаем до того, как регресию будем делать? И соотвественно выравнивание не имеет смысла?

Тут второй неверный

источник

13:34пожаловаться #15

DB

Dmitry Belkevich in AI / Big Data / Machine Learning

Appa

Посоны, хотел бы опять поднять тему model parallelism-а. Пытаюсь файнтюнить модель, и мне не хватает 16 гигов на одной видюхе. Опчитавшись про модненькие GPU V100, что для них на серверах предусмотрены NVSwitch для межпроцессорной коммуникации, у меня в голове сложилось мнение, что несколько GPU V100 работают и видимы для процесса как одна большая видеокарта, и никаких дополнительных телодвижений делать не надо чтоб модель жила сразу на нескольких видюхах. Но недавний эксперимент с aws инстансом на 4 видеокарты показал что это не так. В nvtop я вижу 4 отдельных видюхи. Из них грузится под завязку только одна, и потом процесс вылетает на memory_allocation. Есть ли возможность реализовать параллелизм без плясок с бубном, ручным разбиением модели по GPU с помощью with tf.device или всяких хороводов? При том что ни то ни другое не реализует настоящий параллелизм.

я на 100% не скажу конечно. но мне кажется что такое невозможно - так как нужен доступ любым ядром любой видюхи к любому куску общей памяти иначе не будет работать. насколько мне представляется, то железо во всяком случае пока не заточено под такое

источник

13:38пожаловаться #16

DB

Dmitry Belkevich in AI / Big Data / Machine Learning

могу ошибаться. далеко не эксперт. но вот так думается

источник

13:38пожаловаться #17

AS

Alex Surname in AI / Big Data / Machine Learning

Appa

Посоны, хотел бы опять поднять тему model parallelism-а. Пытаюсь файнтюнить модель, и мне не хватает 16 гигов на одной видюхе. Опчитавшись про модненькие GPU V100, что для них на серверах предусмотрены NVSwitch для межпроцессорной коммуникации, у меня в голове сложилось мнение, что несколько GPU V100 работают и видимы для процесса как одна большая видеокарта, и никаких дополнительных телодвижений делать не надо чтоб модель жила сразу на нескольких видюхах. Но недавний эксперимент с aws инстансом на 4 видеокарты показал что это не так. В nvtop я вижу 4 отдельных видюхи. Из них грузится под завязку только одна, и потом процесс вылетает на memory_allocation. Есть ли возможность реализовать параллелизм без плясок с бубном, ручным разбиением модели по GPU с помощью with tf.device или всяких хороводов? При том что ни то ни другое не реализует настоящий параллелизм.

У меня такая же проблема, похоже что нельзя, линки между видяхами просто ускоряют копирование памяти между ними судя по всему. Хоровод єто к слову дата паралелізм, а не модел. Торч вроде имеет готовіе механізмі паралелизации

источник

13:41пожаловаться #18

DB

Dmitry Belkevich in AI / Big Data / Machine Learning

смотрю вот NVSwitch. везде увы только реклама без конкретики

источник

13:42пожаловаться #19

A

Appa in AI / Big Data / Machine Learning

Dmitry Belkevich

смотрю вот NVSwitch. везде увы только реклама без конкретики

Я вот как-то нарыл библиотеку Nvidia NCCL, типа она для multi-gpu вычислений, и может распараллеливать даже по нескольким узлам, по сети. Но опять же, это я так понимаю , примочка работающая в связке с cuda, TF уже поверх них обоих работает.

источник

13:48пожаловаться #20