Рубрика «inference»

Практическое руководство по Qwen: установка, настройка vLLM и работа через API

2026-04-22 в 12:00, admin, рубрики: AI, inference, llm, ml, OpenAI, openai api, qwen, selectel, self-hosted, vllm

Читать полностью »

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

2026-04-08 в 8:27, admin, рубрики: amd, gpu, inference, llm, local ai, metal, qwen, zig

Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.

Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом.

Читать полностью »

Когда вычисления станут бесконечными: разбор интервью Илона Маска от 5.02.26

2026-03-22 в 21:14, admin, рубрики: ai infrastructure, datacenter, elon musk, energy, gpu, HBM, inference, memory, spacex

Преамбула. Человек в очереди

В 1937 году дальнобойщик Малком МакЛин простоял несколько часов на причале в Нью-Джерси — ждал, пока грузчики вручную перекладывают тысячи ящиков с его грузовика на борт корабля. Разгрузка шла медленно: каждая единица груза — отдельная операция, каждая перевалка — потерянные дни. (OpenSIUC)

Читать полностью »

Куда и почему уходят бабки на нейросети

2026-01-30 в 15:19, admin, рубрики: attention, chatgpt, claude, CUDA, gpu, inference, kv-cache, llm, transformer, токены

Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус.

Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения.

Читать полностью »

Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

2025-08-01 в 12:48, admin, рубрики: ab-mcts, AI, inference, llm, monte carlo tree search, reasoning, reinforcement learning, thompson sampling

Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз Читать полностью »

Эффективный инференс множества LoRA адаптеров

2025-06-27 в 8:19, admin, рубрики: async inference, benchmark, inference, lora, multilora, offline inference, PEFT, tensorrt, TensorRT-LLM, vllm

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.

MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.

В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLMЧитать полностью »

Как запустить локально LLM, если ее веса не помещаются в [видео]память

2025-04-26 в 15:59, admin, рубрики: apple, inference, llama.cpp, llm

Некоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои личные документы. А то и запускать бесчеловечные эксперименты над LLM так, чтобы superintelligence/skynet потом это не припомнил.
Как запустить локально LLM, если ее веса не помещаются в [видео]память - 1

Есть много моделей, оптимизированых для быстрой работы на устройствах с небольшой памятью. Но к сожалению, веса самых продвинутых моделей, которые играют в одной лиге с лучшими онлайн моделями, занимают сотни гигабайт. Например, 8-битные веса Deepseek R1-671B занимают 700 гигабайт, квантованые q4 — 350 гигов. Можно квантовать и в 1 бит, размер тогда будет около 90 гигов, но такая модель почти бесполезна. Еще есть много качественных finetunes на основе Mistral-Large-instruct-130B, Qwen2.5-72B, llama3.3-70B, веса которых также не помещаются в память старших моделей видеокарт.

Читать полностью »

Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i

2025-03-18 в 20:24, admin, рубрики: deep learning, inference, ml, proceesors, pytorch

В последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи.

Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4iЧитать полностью »

Nvidia Triton Inference Server: строим production ML без разработчиков

2024-12-16 в 8:07, admin, рубрики: data engineering, inference, ml-платформа, mlops, selectel, облачные сервисы, платформы

Привет! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel. В этой статье расскажу про наш новый продукт — Inference-платформу Selectel, а также вызовы, с которыми мы столкнулись при ее разработке без разработчиков.

Почему без разработчиков? Рынок ML все еще молодой. В его российском сегменте не так много решений, связанных с Inference‑платформами. Перед началом создания полноценного продукта наша команда сначала проверяет технологические гипотезы, не растрачивая существенные ресурсы на разработку. Все делается силами небольшой команды Ops‑инженеров. Мы используем сервисы с открытым исходным кодом на базе инфраструктуры облака Selectel — тем самым достаточно быстро и недорого тестируем предположения, а в случае успеха легко масштабируем до готового продукта. Дальнейшее развитие уже определяется обратной связью от наших клиентов.Читать полностью »

Simulating Return Type Inference in C#

2022-06-28 в 17:00, admin, рубрики: .net, C#, csharp, dotnet, inference, type inference, обобщения, обобщённое программирование, обобщенные типы, ооп, Программирование

Мне по-настоящему нравится больше чего-либо в разработке ПО делать фреймворки, позволяющие другим разработчикам создавать что-то крутое. Иногда, в погоне за идеальным кодом, мне на ум приходят странные идеи, при реализации которых C# может дойти до предела своих возможностей.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «inference»

Практическое руководство по Qwen: установка, настройка vLLM и работа через API

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Когда вычисления станут бесконечными: разбор интервью Илона Маска от 5.02.26

Преамбула. Человек в очереди

Куда и почему уходят бабки на нейросети

Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

Эффективный инференс множества LoRA адаптеров

Как запустить локально LLM, если ее веса не помещаются в [видео]память

Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i

Nvidia Triton Inference Server: строим production ML без разработчиков

Simulating Return Type Inference in C#