И снова китайцы из DeepSeek показали всем, как надо работать с ИИ. Их алгоритм повышает производительность ускорителей Nvidia для ИИ в восемь раз

Китай не имеет нормального доступа к современным и самым мощным ускорителям для ИИ от Nvidia, но, похоже, теперь они им не очень уж и нужны.

Компания DeepSeek, создавшая нашумевшую нейросеть, теперь сообщает, что им удалось выжать 580 TFLOPS производительности в режиме BF16 на ускорителе Nvidia H800. Чтобы было понятнее, это примерно в восемь раз превышает стандартный показатель модели.

Более того, благодаря эффективному использованию памяти декодирующее ядро FlashMLA — изюминка новой разработки — обеспечивает пропускную способность памяти до 3000 ГБ/с, что почти в два раза превышает теоретический пик H800. Речь тут именно о программных оптимизациях, что говорит о том, что вовсе не обязательно гнаться за самыми мощными вычислительными устройствами — иногда можно получить даже больший прирост просто благодаря ПО.

Напомним, относительно информации о невероятной дешевизне обучения DeepSeek есть альтернативное мнение ^[2]. А вот если другие компании смогут добиться такого же прироста на старых ускорителях, это может заметно и очень быстро изменить рынок, который сейчас активно растёт в том числе из-за активной гонки за всё большей производительностью ускорителей для ИИ.

Источник ^[3]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/news/411916

Ссылки в тексте:

[1] Image: #

[2] альтернативное мнение: https://www.ixbt.com/news/2025/02/01/nikakogo-chuda-kitajskaja-nejroset-deepseek-iz-sebja-ne-predstavljaet-zatraty-na-ejo-obuchenie-mogli-byt-v-400-raz.html

[3] Источник: https://www.ixbt.com/news/2025/02/25/i-snova-kitajcy-iz-deepseek-pokazali-vsem-kak-nado-rabotat-s-ii-ih-algoritm-povyshaet-proizvoditelnost-uskoritelej.html

Нажмите здесь для печати.