Рубрика «dataset»

Разметка данных: самая дорогая часть машинного обучения

2026-01-16 в 13:35, admin, рубрики: active learning, AI, data science, dataset, quality assurance, Weak Supervision, ИИ, машинное обучение, нейросеть, разметка данных

Доброго времени суток, «Хабр»!

В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных.

Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается самым трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта.

Читать полностью »

Семантическая декомпозиция медицинских текстов: автоматизированное извлечение клинических находок и биомаркеров

2026-01-13 в 11:23, admin, рубрики: AI, dataset, EHR, fhir, LOINC, SNOMED, анализы, лабораторные тесты, медицина, цифровой двойник

Читать полностью »

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

2025-11-20 в 22:47, admin, рубрики: computer vision, dataset, labeling, machine learning, pcb, yolo, машинное обучение, обучение моделей, разметка датасета, учусь программировать

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат».

Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей.

Читать полностью »

Читаем вместе. ИИ в AppSec: могут ли LLM работать с уязвимым кодом

2025-10-01 в 10:59, admin, рубрики: claude, dataset, gpt-4, large language model, llm, reasoning, безопасная разработка, искусственный интеллект, промптинг, уязвимый исходный код

Привет!

Читать полностью »

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

2025-09-14 в 13:17, admin, рубрики: data, dataset, kaggle, визуализация данных, парсинг

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать полностью »

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

2025-06-07 в 11:17, admin, рубрики: AI, bench, benchmark, dataset, DS, ml, ML4se, SWE, разметка данных

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье Читать полностью »

Fine tuning роя агентов

2025-04-04 в 17:55, admin, рубрики: dataset, Fine-tuning, huggingface, javascript, llm, OpenAI, python, TypeScript, yandexgpt

Исходный код, разобранный в статье, опубликован в этом репозитории

В вакансиях LLM инженеров присутствует слово RAG. Это подразумевает интеграцию во внешнюю базу данных, например, PostgreSQL с PGVector или MongoDB Atlas Vector Search.

https://supabase.com/blog/openai-embeddings-postgres-vector — Читать полностью »

Делаем свой reasoning dataset

2025-03-29 в 17:20, admin, рубрики: dataset, gpt, huggingface, llm, нейросети

Привет!

Туториал будет посвящен подготовке узкоспециализированного русскоязычного медицинского датасета для последующего файнтюнинга (тонкой настройки) открытых языковых моделей.

Описанная методика выверена методом многочисленных проб и ошибок. Русификация тут приведена больше как пример того, как при помощи сырого набора данных, можно сгенерировать качественные данные под узкую задачу с минимальными затратами.

В данном туториале описан процесс создания русского медицинского датасета из англоязычного Читать полностью »

Как дообучать LLM с помощью Supervised Fine-Tuning

2024-08-12 в 13:34, admin, рубрики: data annotation, data labeling, dataset, Fine-tuning, llm, SFT, машинное обучение, разметка данных

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

Как дообучать LLM с помощью Supervised Fine-Tuning - 2

Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать полностью »

Telegram бот с языковой моделью, обученной на 2ch

2022-06-11 в 21:52, admin, рубрики: 2ch, data mining, dataset, huggingface, natural language processing, nlp, python, pytorch, telegram, telegrambot, машинное обучение

Если вам хочется разбавить общение в telegram чате нелепыми, но зачастую меткими и смешными комментариями, или вы ищете информацию по интеграции языковой модели в бота, или хотите сами обучить языковые модели на данных с 2ch, то в этой статье описаны шаги, как это сделать.

Бот

Запустил бота, которого можно добавлять в чаты, и он будет отвечать на сообщения, как на посты на 2ch.hk/b/.

Для этого:

Был собран датасет постов с 2ch
Была обучена Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «dataset»

Разметка данных: самая дорогая часть машинного обучения

Семантическая декомпозиция медицинских текстов: автоматизированное извлечение клинических находок и биомаркеров

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Читаем вместе. ИИ в AppSec: могут ли LLM работать с уязвимым кодом

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

Fine tuning роя агентов

Делаем свой reasoning dataset

Как дообучать LLM с помощью Supervised Fine-Tuning

Telegram бот с языковой моделью, обученной на 2ch

Бот