Рубрика «inference»
Практическое руководство по Qwen: установка, настройка vLLM и работа через API
2026-04-22 в 12:00, admin, рубрики: AI, inference, llm, ml, OpenAI, openai api, qwen, selectel, self-hosted, vllmКогда вычисления станут бесконечными: разбор интервью Илона Маска от 5.02.26
2026-03-22 в 21:14, admin, рубрики: ai infrastructure, datacenter, elon musk, energy, gpu, HBM, inference, memory, spacexПреамбула. Человек в очереди
В 1937 году дальнобойщик Малком МакЛин простоял несколько часов на причале в Нью-Джерси — ждал, пока грузчики вручную перекладывают тысячи ящиков с его грузовика на борт корабля. Разгрузка шла медленно: каждая единица груза — отдельная операция, каждая перевалка — потерянные дни. (OpenSIUC)
Куда и почему уходят бабки на нейросети
2026-01-30 в 15:19, admin, рубрики: attention, chatgpt, claude, CUDA, gpu, inference, kv-cache, llm, transformer, токеныМалоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус.
Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения.
Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум
2025-08-01 в 12:48, admin, рубрики: ab-mcts, AI, inference, llm, monte carlo tree search, reasoning, reinforcement learning, thompson sampling
Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый разЧитать полностью »
Эффективный инференс множества LoRA адаптеров
2025-06-27 в 8:19, admin, рубрики: async inference, benchmark, inference, lora, multilora, offline inference, PEFT, tensorrt, TensorRT-LLM, vllmLoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.
MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.
В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLMЧитать полностью »
Как запустить локально LLM, если ее веса не помещаются в [видео]память
2025-04-26 в 15:59, admin, рубрики: apple, inference, llama.cpp, llmНекоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои личные документы. А то и запускать бесчеловечные эксперименты над LLM так, чтобы superintelligence/skynet потом это не припомнил.
![Как запустить локально LLM, если ее веса не помещаются в [видео]память - 1 Как запустить локально LLM, если ее веса не помещаются в [видео]память - 1](https://www.pvsm.ru/images/2025/04/26/kak-zapustit-lokalno-LLM-esli-ee-vesa-ne-pomeshayutsya-v-video-pamyat.jpg)
Есть много моделей, оптимизированых для быстрой работы на устройствах с небольшой памятью. Но к сожалению, веса самых продвинутых моделей, которые играют в одной лиге с лучшими онлайн моделями, занимают сотни гигабайт. Например, 8-битные веса Deepseek R1-671B занимают 700 гигабайт, квантованые q4 — 350 гигов. Можно квантовать и в 1 бит, размер тогда будет около 90 гигов, но такая модель почти бесполезна. Еще есть много качественных finetunes на основе Mistral-Large-instruct-130B, Qwen2.5-72B, llama3.3-70B, веса которых также не помещаются в память старших моделей видеокарт.
Десять уроков развития аппаратных ускорителей для ИИ: как эволюция TPU привела к созданию TPUv4i
2025-03-18 в 20:24, admin, рубрики: deep learning, inference, ml, proceesors, pytorchВ последние годы стало очевидно, что классические центральные процессоры (CPU) и видеокарты (GPU) уже не всегда поспевают за непрерывным ростом и усложнением нейронных сетей. Вместо бесконечного наращивания «универсального» железа, компании начали разрабатывать и внедрять в своих дата-центрах Domain-Specific Architecture (DSA) — аппаратные ускорители, заточенные под конкретные задачи.
Google TPU (Tensor Processing Unit) — одно из первых крупных решений такого рода. Начиная с 2015 года (поколение TPUv1), Google успела вывести на рынок несколько поколений TPU для внутренних нужд: TPUv1 и TPUv2/v3, а в 2020 году — новое решение TPUv4iЧитать полностью »
Nvidia Triton Inference Server: строим production ML без разработчиков
2024-12-16 в 8:07, admin, рубрики: data engineering, inference, ml-платформа, mlops, selectel, облачные сервисы, платформы
Привет! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel. В этой статье расскажу про наш новый продукт — Inference-платформу Selectel, а также вызовы, с которыми мы столкнулись при ее разработке без разработчиков.
Почему без разработчиков? Рынок ML все еще молодой. В его российском сегменте не так много решений, связанных с Inference‑платформами. Перед началом создания полноценного продукта наша команда сначала проверяет технологические гипотезы, не растрачивая существенные ресурсы на разработку. Все делается силами небольшой команды Ops‑инженеров. Мы используем сервисы с открытым исходным кодом на базе инфраструктуры облака Selectel — тем самым достаточно быстро и недорого тестируем предположения, а в случае успеха легко масштабируем до готового продукта. Дальнейшее развитие уже определяется обратной связью от наших клиентов.Читать полностью »
Simulating Return Type Inference in C#
2022-06-28 в 17:00, admin, рубрики: .net, C#, csharp, dotnet, inference, type inference, обобщения, обобщённое программирование, обобщенные типы, ооп, Программирование
Мне по-настоящему нравится больше чего-либо в разработке ПО делать фреймворки, позволяющие другим разработчикам создавать что-то крутое. Иногда, в погоне за идеальным кодом, мне на ум приходят странные идеи, при реализации которых C# может дойти до предела своих возможностей.

