Рубрика «инференс» - 2

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

2025-06-18 в 8:00, admin, рубрики: exllamav3, llama.cpp, qwen3, rtx 3090 24gb, rtx 5060 ti 16gb, tabbyapi, видеокарты для нейросетей, Железо, инференс, тест ии-моделей

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты.

Читать полностью »

Ускорение LLM: универсальные методы для популярных архитектур

2025-02-05 в 7:00, admin, рубрики: llm, ml, инференс, нейросети

Читать полностью »

Анализ DeepSeek R1-Zero и R1

2025-01-30 в 10:07, admin, рубрики: chain of thoughts, chatgpt, deepseek, OpenAI, инференс

R1-Zero важнее, чем R1

Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций.

Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики.

Читать полностью »

Алгоритмы спекулятивного инференса LLM

2025-01-05 в 9:25, admin, рубрики: DL, DL инференс, llm, ml, ML алгоритмы, алгоритмическая оптимизация, инференс, оптимизация инференса, спекулятивный декодинг

Введение

За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности.
Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов.

Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим “на автомате”. В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.

Читать полностью »

Тензорные компиляторы: что это за «звери» и где они «обитают»

2024-12-25 в 7:12, admin, рубрики: apach tvm, glow, OpenVINO, XLA, глубокие нейросети, инференс, машинное обучение, тензорные компиляторы, тензоры

Компилятор — привычный инструмент для многих разработчиков, но не все сталкивались в работе с тензорным видом. Их частые пользователи — специалисты по машинному обучению и дата-инженеры. В этой статье совершим экскурсию в «зоопарк» тензорных компиляторов, понаблюдаем за их «поведением» и выберем самых функциональных «зверушек». А еще поделимся ссылкой на бесплатный курс о построении и использовании тензорных компиляторов для ускорения вывода глубоких нейронных сетей, который разработан сотрудниками института ИТММ ННГУ им. Н. И. Лобачевского.

Чем отличается компилятор общего назначения от тензорного

Читать полностью »

Влияние программного обеспечения и архитектуры ускорителя на производительность

2024-12-09 в 8:00, admin, рубрики: инференс, искусственный интеллект, машинное обучение

Читать полностью »

Как мы исследовали энергоэффективность инференса нейросетей на планшете

2024-11-14 в 9:45, admin, рубрики: AI, бенчмаркинг, инференс, искусственный интеллект, планшет, функции

Современные гаджеты невозможно представить без AI-функций. Размыть фон за спиной во время телеконференции, подавить шум от проходящих мимо коллег, вычесть «красные глаза» на фотографии — все это давно стало базовым функционалом любого устройства с камерой и микрофоном. Сейчас вендоры потребительских устройств устраивают настоящую «гонку вооружений», предлагая новые AI-функции, которые выделят устройство среди «собратьев».

Читать полностью »

Чипы Intel Myriad X и их масштабируемость в инференсе нейронных сетей

2019-11-30 в 19:07, admin, рубрики: аппаратное обеспечение, инференс, искусственный интеллект, нейронные сети

Нейростики Intel NCS2, чипы Myriad X, решения сторонних производителей — компания Intel продвигает решения на базе Myriad X в самых различных вариантах.

Чем же так хороши эти ускорители? Во-первых, стоимостью одного FPS. Во-вторых, полной совместимостью с OpenVINO, где можно перенести существующие решения с CPU/GPU на стик или MyriadX без их доработки или дополнительной адаптации. Конечно же, адаптация это не особенность VPU, а, скорее, особенность OpenVINO, где каждая обученная сеть может работать на любой выбранной аппаратной платформе, будь то CPU, GPU, FPGA, VPU и выбор может быть сделан не до разработки, а после.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «инференс» - 2

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Ускорение LLM: универсальные методы для популярных архитектур

Анализ DeepSeek R1-Zero и R1

R1-Zero важнее, чем R1

Алгоритмы спекулятивного инференса LLM

Введение

Читать полностью »

Тензорные компиляторы: что это за «звери» и где они «обитают»

Чем отличается компилятор общего назначения от тензорного

Влияние программного обеспечения и архитектуры ускорителя на производительность

Как мы исследовали энергоэффективность инференса нейросетей на планшете

Чипы Intel Myriad X и их масштабируемость в инференсе нейронных сетей

Нейростики Intel NCS2, чипы Myriad X, решения сторонних производителей — компания Intel продвигает решения на базе Myriad X в самых различных вариантах.