Рубрика «разметка данных»

Разметка данных: самая дорогая часть машинного обучения

2026-01-16 в 13:35, admin, рубрики: active learning, AI, data science, dataset, quality assurance, Weak Supervision, ИИ, машинное обучение, нейросеть, разметка данных

Доброго времени суток, «Хабр»!

В предыдущей своей статье я рассматривал различные функции потерь - важную часть машинного обучения. Но даже такие функции совершенно беспомощны перед лицом беспорядка. Сегодня мы рассмотрим то, что предшествует любой тренировке - разметку данных.

Как и в предыдущей статье, приведу простенькое сравнение. Если модель - ученик, то разметка данных своего рода учебник, по которому она занимается. При этом создание такого учебника часто оказывается самым трудоемким, медленным и дорогостоящим этапом всего цикла ML-проекта.

Читать полностью »

Оценки продукта в три простых шага

2026-01-13 в 17:35, admin, рубрики: eval-harness, LLM-оценщик, бинарные метки, калибровка оценщика, оценка качества, продуктовые оценки, разметка данных

Есть три базовых шага: (i) разметить небольшой датасет, (ii) «откалибровать» LLM-оценщиков и (iii) запускать эксперимент и прогонять обвязку для оценки при каждом изменении конфигурации.

Сначала разметьте данные

Всё начинается с того, что мы выбираем часть входов и выходов из прогонов (вызовов) к нашей LLM и размечаем, соответствует ли выход нашим критериям оценки (например, достоверность по источнику, релевантность и т. п.). Начните с простого: заведите таблицу со столбцами для входа, выхода, дополнительной метаинформации, которая помогает оценить результат, и отдельным столбцом для метки.

Читать полностью »

Взгляд разметчика данных

2026-01-09 в 17:36, admin, рубрики: data science, аннотация данных, бинарная классификация, дата сайенс, качество данных, опыт работы, разметка данных, разметка изображений

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты.

Всем добрый день!

Читать полностью »

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

2025-10-28 в 20:08, admin, рубрики: ocr, исторические данные, нейросеть, разметка данных, распознавание текста, синтетические данные

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).

Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

Читать полностью »

200 000+ снимков мусора: что мы узнали о датасетах

2025-07-03 в 13:38, admin, рубрики: искусственный интеллект, машинное обучение, открытые данные, парсинг данных, разметка данных, разметка датасета, сбор данных для ИИ, управление проектами

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.

Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

Читать полностью »

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

2025-07-02 в 14:18, admin, рубрики: нейросети для агропрома, нейросети для табунов и конюшен, нейросети для ферм, парсинг данных, разметка данных, разметка датасета, сбор данных для ИИ

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

Здесь было все: почти сорванный дедлайн, паника, отчаяние и, как вишенка на торте, нейросеть, которую мы создали, чтобы обучить другую нейросеть.

Кони-авторитеты и спокойствие стада

Читать полностью »

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

2025-06-07 в 11:17, admin, рубрики: AI, bench, benchmark, dataset, DS, ml, ML4se, SWE, разметка данных

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье Читать полностью »

Как собирать данные: руководство для ИИ-стартапов

2025-02-19 в 9:57, admin, рубрики: ai-first стартап, ИИ-инжиниринг, ии-стартап, машинное обучение, методы обучения LLM, обучение нейросетей, разметка данных, синтетические данные

В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

Как собирать данные: руководство для ИИ-стартапов - 1

Читать полностью »

8 лучших советов для аутсорсинга разметки данных

2024-12-16 в 11:09, admin, рубрики: data annotation, machinelearning, аутсорсинг, машинное обучение, разметка данных, разметка датасета

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Читать полностью »

Homo clickus. Как моделирование кликающих людей пригодится для сегментации изображений

2024-12-12 в 11:52, admin, рубрики: глубокое обучение, интерактивная сегментация, искусственный интеллект, Компьютерное зрение, обработка изображений, разметка данных, сегментация изображений

Приветствую всех читающих!

Меня зовут Антон Антонов, я инженер по искусственному интеллекту, работаю в Институте искусственного интеллекта AIRI в команде, которая занимается Embodied AI — областью, связывающей робототехнику, компьютерное зрение и большие языковые модели.

Недавно наша группа получила приятное известие: нашу статью с описанием модели того, как люди кликают и тапают на картинки, приняли на грядущий NeurIPS! Она будет полезна, чтобы тестировать модели интерактивной сегментации, которые помогают автоматизировать и ускорить процесс разметки изображений человеком.Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «разметка данных»

Разметка данных: самая дорогая часть машинного обучения

Оценки продукта в три простых шага

Сначала разметьте данные

Взгляд разметчика данных

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Читать полностью »

200 000+ снимков мусора: что мы узнали о датасетах

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

Как собирать данные: руководство для ИИ-стартапов

8 лучших советов для аутсорсинга разметки данных

Homo clickus. Как моделирование кликающих людей пригодится для сегментации изображений