Рубрика «Ollama» - 2

Привет! На связи команда Рег.облака. Мы давно следим за развитием Retrieval-Augmented Generation (RAG) и хотели проверить, как эта технология работает в живых сценариях.

У нас есть ИИ-ассистент — это образ виртуальной машины с предустановленными Ollama, Open WebUI и набором моделей. Его можно развернуть в пару кликов и сразу работать с LLM в приватном окружении. Но мы решили пойти дальше и проверить, как он справится в прикладной задаче: собрать чат-бота для нашей техподдержки.

Навигация по тексту

  1. Задача и критерии успеха

  2. Читать полностью »

Когда мы говорим об использовании больших языковых моделей (LLM), большинство людей сразу вспоминают облачные сервисы. Но далеко не всегда удобно или возможно работать через интернет: где-то мешают ограничения по приватности, где-то скорость соединения, а иногда просто хочется больше контроля над процессом. Именно для таких задач и существует Ollama — инструмент, который позволяет запускать современные языковые модели локально, буквально в пару действий.

Читать полностью »

Сегодня каждый может обзавестись своим собственным ИИ. И даже не потребуется супер-пупер компьютера и дата-центра с кучей GPU. При этом он будет работать без Интернета. Давайте, приступим к тому, чтобы обзавестись на компьютере милым и пушистым питомцем.

Ollama

Для начала нужно установить ollama. Переходим на страницу ollama.com/download и скачиваем дистрибутив для своей операционной системы.

Читать полностью »

Листая телеграм-каналы с торговыми сигналами, я часто задавался вопросом: а кто из этих экспертов действительно попадает в цель? Одни обещают золотые горы, другие скромно молчат о своих неудачах. Решил разобраться раз и навсегда — создать систему, которая автоматически проверит, кто из гуру трейдинга говорит дело, а кто просто красиво упаковывает воздух.

Архитектура системы

Система состоит из четырех компонентов:

  • TG-Reader — собирает сообщения из телеграм-каналов через MTProto API

  • Trade-Radar — извлекает торговые прогнозы из текста с помощью AI

  • AnalyzerЧитать полностью »

В ★5УГЛОВ мы часто работаем с языковыми моделями — как облачными, так и локальными. И если про онлайн-сервисы знают все, то локальные LLM до сих пор остаются недооцененным инструментом. Я решил поделиться личным опытом: какие модели можно запускать прямо на ПК, чем они полезны и зачем их вообще использовать в реальных проектах.

Читать полностью »

👋 Привет!

Сегодня хочу поделиться своим опытом работы с локальными LLM (Large Language Models). Это что-то вроде GitHub Copilot, только без подписки, оффлайн и с контролем над своими данными.

Зачем вообще связываться с локальными LLM?

У многих часто одни и те же страхи:

  • «Это слишком сложно».

  • «Оно съест всю оперативку».

  • «А вдруг мой код утечёт в облако».

  • «Да оно будет писать чушь».

На деле, уже сегодня можно запустить модель в 7B параметров на обычном MacBook или ноутбуке с 16 GB RAM.

И получить вполне рабочего помощника для кода, тестов и рефакторинга.

Читать полностью »

Эффективный ИИ симбиоз

Эффективный ИИ симбиоз

Читать полностью »

Синтетические тесты показывают, что эти карты в 10 раз медленнее старых игровых. Но на практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов.

 По ходу мы рассмотрим:

  • теоретические данные

  • условия для работы этих GPU

  • результаты практических тестов производительности

  • объяснение полученных противоречий

  • советы по небольшим доработкам (охлаждение, PCIexpress)

  • сравнение друг с другом и другими GPU

Введение

Читать полностью »

OpenAI выпустила GPT-OSS модели (https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки производительности найти сложно. В этой статье представлены результаты нашего практического тестирования на арендованном железе через RunPod с использованием Ollama.

Ремарка: Тесты проводились на Ollama для быстрого деплоя. Если будете использовать vLLM, то производительность будет примерно +30%, но он слабо адаптирован под консьюмерские GPU, за исключением RTX 5090.

Что тестировалось:Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js