Рубрика «llama.cpp»

Установка и настройка llama.cpp с ROCm на Ubuntu 24.04 для AMD Radeon RX 7600 XT

2026-01-03 в 13:07, admin, рубрики: llama.cpp, llm

Однажды захотел я установить Ubuntu 24.04 для локального запуска LLM-моделей. Поскольку моя система полностью на базе AMD (процессор Ryzen 7600 и видеокарта Radeon RX 9060 XT), логичным выбором стал стек ROCm

Однако быстрого и понятного руководства «от и до» для свежего Ubuntu 24.04 я не нашёл — даже нейросети давали устаревшие или фрагментированные советы.

В этой статье я подробно разберу весь путь: от установки драйверов ROCm до получения первого ответа от модели через Python-скрипт. Надеюсь, этот гайд сэкономит время тем, кто столкнётся с аналогичной задачей.

1. Установка системы и драйверов ROCm

Читать полностью »

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t-s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

2025-11-01 в 10:58, admin, рубрики: cmoe, cpu-moe, deepseek, gpt-oss, GPT-OSS-120B, llama.cpp, llm, qwen3, локальные нейросети

Читать полностью »

Вайб-кодинг с доставкой на дом

2025-08-19 в 10:05, admin, рубрики: kubernetes, llama.cpp, Ollama, вайб-кодинг

Читать полностью »

Нейросети простым языком

2025-08-12 в 5:15, admin, рубрики: AI, chatgpt, gemini, grok, llama.cpp, llm, Transformers

Привет!

В интернете можно найти разные объяснения того, как работают нейросети, но те, что мне попадались, были либо слишком специфичны и ориентированы на специалистов, либо слишком упрощены.

Постарался написать свои объяснения, которые были бы не было слишком упрощены, но при этом по возможности понятны.

Статья на 10 процентов скомпилирована из других статей, на 30 процентов скомпилирована из множества диалогов с разными LLM и на 60 процентов “написана от руки” на основании статей и ответов.

Оглавление

Читать полностью »

Георгий Герганов, автор llama.cpp и звукового кейлогера

2025-07-07 в 9:01, admin, рубрики: Georgi Gerganov, ggml, LiteLLM, llama, llama.cpp, llm, LM Studio, Ollama, Георгий Герганов, тензорная алгебра

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama Читать полностью »

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

2025-06-29 в 8:46, admin, рубрики: deepseek, DeepSeek R1, deepseek v3, ik_llama, llama.cpp, локальные нейросети

Читать полностью »

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

2025-06-18 в 8:00, admin, рубрики: exllamav3, llama.cpp, qwen3, rtx 3090 24gb, rtx 5060 ti 16gb, tabbyapi, видеокарты для нейросетей, Железо, инференс, тест ии-моделей

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты.

Читать полностью »

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

2025-06-18 в 7:44, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek r1-0528, gguf, llama.cpp, llm, llm-модели, local ai, кодогенерация

Введение

После сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.
Читать полностью »

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

2025-06-09 в 14:21, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek v3, EPYC, gguf, huggingface, llama.cpp, llm, local ai

Зачем?

У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.

Где?

Читать полностью »

Тестирование производительности видеокарт на примере больших языковых моделей с использованием Llama.cpp

2025-06-09 в 9:56, admin, рубрики: llama.cpp, llm, бенчмарки, Видеокарты, нагрузочное тестирование

В последнее время большие языковые модели (LLM) становятся все более популярными, но для их эффективного запуска требуется значительная вычислительная мощность. Один из способов запуска LLM локально - использование библиотеки Llama.cpp. В этой статье мы рассмотрим, как тестировать производительность видеокарт для LLM с использованием инструмента llama-bench, входящего в состав Llama.cpp.

Дисклеймер: Почему Llama.cpp, а не Ollama?

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «llama.cpp»

Установка и настройка llama.cpp с ROCm на Ubuntu 24.04 для AMD Radeon RX 7600 XT

1. Установка системы и драйверов ROCm

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t-s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Вайб-кодинг с доставкой на дом

Нейросети простым языком

Георгий Герганов, автор llama.cpp и звукового кейлогера

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

Введение

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем?

Где?

Тестирование производительности видеокарт на примере больших языковых моделей с использованием Llama.cpp

Дисклеймер: Почему Llama.cpp, а не Ollama?