Рубрика «инференс»

4.6-битные сети: от теории к практике. Причём здесь HardTanh?

2026-06-26 в 10:07, admin, рубрики: 4.6-битное квантование, edge ai, HardTanh, resnet, инференс, квантование, мобильный ии, нейронные сети, низкоразрядные вычисления

Уже прошло два года с тех пор, как мы предложили схему 4.6-битного квантования и рассказали про нее, в том числе и на Хабре: раз и два. Вспомним, что при 4.6-битном квантовании веса и входы слоя принимают такие целые значения, что их попарные произведения помещаются в знаковый 8-битный тип данных. Такая схема позволила нам вычислять нейронные сети на процессорах мобильных устройств быстрее, чем в 8-битном формате, и точнее, чем в 4-битном, потому что уровней квантования больше.

Читать полностью »

Tensordyne Napier — еще одно решение на замену традиционных GPU в инференсе

2026-06-23 в 8:01, admin, рубрики: gpu, selectel, sram, инференс

Модульная ИИ-платформа TDN. Источник. — *Модульная ИИ-платформа TDN.* *Источник.*

Читать полностью »

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

2026-06-18 в 10:25, admin, рубрики: llama.cpp, qwen code, self-hosted, Tesla V100, водяное охлаждение, домашний сервер, инференс, локальный LLM, нейросети

«У нас было две планки оперативной памяти, одна серверная Tesla V100, прочная открытая рама вместо корпуса, 5 райзеров, коробка, наполовину набитая переходниками питания, и целое море разноцветных SATA‑кабелей, стяжек и термопрокладок, а так же тюбик термопасты, моток шлангов для водянки, ящик вентиляторов, пинта изопропила и 12 саморезов неизвестного происхождения. Не то, чтобы всё это было категорически необходимо для сборки, но если уж начал собирать коллекцию, то к делу надо подходить серьёзно.»

— по мотивам Хантера С. Томпсона, «Страх и Ненависть в Лас‑Вегасе»

Читать полностью »

Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMax

2026-05-15 в 8:00, admin, рубрики: dgx, gpu, hgx b300, llm, Nvidia, selectel, инференс

Читать полностью »

Линейка HighFreq или как выжать из облака максимум для инференса, ML и других высоких нагрузок

2026-03-13 в 8:00, admin, рубрики: ml, selectel, ИИ, инференс, инфраструктура, облако

«Больше» — не всегда значит «лучше». К пользовательским приложениям в облаках Читать полностью »

LLM модель qwen3-coder-next быстрый тест на локальном сервере

2026-02-04 в 18:29, admin, рубрики: llm код, запуск llm, инференс, инференс ллм, инференс моделей, как запустить llm, настрока linux для llm, обучение нейросети, сервер для LLM

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это.

Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так

curl -fsSL https://ollama.com/install.sh | sh

а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так

Читать полностью »

Локальный инференс на бюджетных ноутбуках

2025-12-09 в 9:45, admin, рубрики: AI, gpt, lmstudio, self-hosted, ИИ, инференс

В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков.

Читать полностью »

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

2025-11-14 в 7:00, admin, рубрики: cpu, gpu, llm, ml, selectel, большие языковые модели, инференс, машинное обучение, Процессоры

Читать полностью »

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

2025-10-10 в 9:30, admin, рубрики: h200, Nvidia, инференс, искусственный интеллект, ключевые слова, машинное обучение

Читать полностью »

Что нового в NVIDIA Rubin CPX — платформе для AI, представленной на AI Infra Summit

2025-09-25 в 6:26, admin, рубрики: gddr7, gpu, Nvidia, графические процессоры, инференс, искусственный интеллект, обработка данных, программный код

9 сентября NVIDIA представила новый графический процессор Rubin CPX, разработанный специально для задач искусственного интеллекта с длинным контекстом. Этот монолитный чип оснащен 128 ГБ памяти GDDR7, способен обрабатывать миллионы токенов информации и оптимизирован для фазы предварительной обработки данных в задачах инференса. В деталях рассказываем, какую мощность выдает новинка и для какой работы подходит.

На что способен NVIDIA Rubin CPX

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «инференс»

4.6-битные сети: от теории к практике. Причём здесь HardTanh?

Tensordyne Napier — еще одно решение на замену традиционных GPU в инференсе

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMax

Линейка HighFreq или как выжать из облака максимум для инференса, ML и других высоких нагрузок

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Локальный инференс на бюджетных ноутбуках

«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU

Как мы запустили GPU NVIDIA H200 в Selectel, или почему в золотую лихорадку непросто продавать лопаты

Что нового в NVIDIA Rubin CPX — платформе для AI, представленной на AI Infra Summit

На что способен NVIDIA Rubin CPX