Рубрика «dataset»
Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO
2025-11-20 в 22:47, admin, рубрики: computer vision, dataset, labeling, machine learning, pcb, yolo, машинное обучение, обучение моделей, разметка датасета, учусь программироватьКогда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат».
Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей.
Читаем вместе. ИИ в AppSec: могут ли LLM работать с уязвимым кодом
2025-10-01 в 10:59, admin, рубрики: claude, dataset, gpt-4, large language model, llm, reasoning, безопасная разработка, искусственный интеллект, промптинг, уязвимый исходный кодАвтомобили в кино. Kaggle-датасет на 1,75 миллиона строк
2025-09-14 в 13:17, admin, рубрики: data, dataset, kaggle, визуализация данных, парсингНа imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.
Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench
2025-06-07 в 11:17, admin, рубрики: AI, bench, benchmark, dataset, DS, ml, ML4se, SWE, разметка данныхВ статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статьеЧитать полностью »
Fine tuning роя агентов
2025-04-04 в 17:55, admin, рубрики: dataset, Fine-tuning, huggingface, javascript, llm, OpenAI, python, TypeScript, yandexgptИсходный код, разобранный в статье, опубликован в этом репозитории
В вакансиях LLM инженеров присутствует слово RAG. Это подразумевает интеграцию во внешнюю базу данных, например, PostgreSQL с PGVector или MongoDB Atlas Vector Search.
Делаем свой reasoning dataset
2025-03-29 в 17:20, admin, рубрики: dataset, gpt, huggingface, llm, нейросетиПривет!
Туториал будет посвящен подготовке узкоспециализированного русскоязычного медицинского датасета для последующего файнтюнинга (тонкой настройки) открытых языковых моделей.
Описанная методика выверена методом многочисленных проб и ошибок. Русификация тут приведена больше как пример того, как при помощи сырого набора данных, можно сгенерировать качественные данные под узкую задачу с минимальными затратами.
В данном туториале описан процесс создания русского медицинского датасета из англоязычногоЧитать полностью »
Как дообучать LLM с помощью Supervised Fine-Tuning
2024-08-12 в 13:34, admin, рубрики: data annotation, data labeling, dataset, Fine-tuning, llm, SFT, машинное обучение, разметка данных
Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

Этапы обучения LLM
На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать полностью »
Telegram бот с языковой моделью, обученной на 2ch
2022-06-11 в 21:52, admin, рубрики: 2ch, data mining, dataset, huggingface, natural language processing, nlp, python, pytorch, telegram, telegrambot, машинное обучениеЕсли вам хочется разбавить общение в telegram чате нелепыми, но зачастую меткими и смешными комментариями, или вы ищете информацию по интеграции языковой модели в бота, или хотите сами обучить языковые модели на данных с 2ch, то в этой статье описаны шаги, как это сделать.
Бот
Запустил бота, которого можно добавлять в чаты, и он будет отвечать на сообщения, как на посты на 2ch.hk/b/.
Для этого:
-
Был собран датасет постов с 2ch
-
Была обучена Читать полностью »
52 датасета для тренировочных проектов
2019-12-16 в 13:18, admin, рубрики: data science, dataset, deep learning, edisonsoftware, machine learning, python, Блог компании Edison, машинное обучение, Программирование, Учебный процесс в IT- Mall Customers Dataset — данные посетителей магазина: id, пол, возраст, доход, рейтинг трат. (Вариант применения: Customer Segmentation Project with Machine Learning)
- Iris Dataset — датасет для новичков, содержащий размеры чашелистиков и лепестков для различных цветков.
- MNIST Dataset — датасет рукописных цифр. 60 000 тренировочных изображений и 10 000 тестовых изображений.
- The Boston Housing DatasetЧитать полностью »


