
На самом деле ссылка про другое - есть такой популярный (например у фейсбука) фреймворк для работы с сетями Caffe. Он не такой удобный как Tensorflow, и вообще низкоуровневый - его задача показывать максимум производительности, а не давать удобство. В своежем релизе Caffe2 при поддержке Nvidia поддержали низкоточное обучение, используя 16 битные Float. По большому счету это частая история, когда нужно получить сверхвысокую скорость обучения с небольшой потерей в точности
https://caffe2.ai/blog/2017/05/10/caffe2-adds-FP16-training-support.html