Рубрика «синтетические данные»

Как спасти ИИ в эпоху, когда ИИ убивает сам себя?

2026-03-10 в 9:15, admin, рубрики: llm, model collapse, галлюцинации ИИ, обучение нейросетей, синтетические данные

«Все крупные корпорации и социальные сети уже давно хотят помечать контент, созданный искусственным интеллектом, отдельным специальным признаком. Безусловно, можно говорить о том, что это делается ради заботы о пользователях — чтобы люди не сидели бесконечно и не потребляли абсолютно одинаковый контент. Но у этой инициативы есть и совершенно эгоистичные цели: платформам жизненно необходимо физически отделить контент, созданный живыми людьми, от материалов, сгенерированных нейросетями».

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

2025-10-28 в 20:08, admin, рубрики: ocr, исторические данные, нейросеть, разметка данных, распознавание текста, синтетические данные

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).

Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

Читать полностью »

Если нужно сгенерировать синтетические данные — подборка открытых решений

2025-07-30 в 13:22, admin, рубрики: llm, ml, MWS, данные, датасеты обучения, обучение моделей, синтетические данные

Про снижение расходов на работу с данными расскажем Читать полностью »

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

2025-07-22 в 20:35, admin, рубрики: генеративные модели, генерация данных, диффузионные модели, конфиденциальность, наука о данных, нейронные сети, синтетические данные

1. Вступление: синтетика выходит из-подполья

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.

Почему это не очередная хайповая игрушка?

Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.
Приватность без компромиссов.Читать полностью »

Генератор синтетических документов для обучения моделей ИИ

2025-06-20 в 13:55, admin, рубрики: ocr, распознавание документов, синтетические данные

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Кратко:

Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхаб
Язык текста: можно выбрать.
Читать полностью »

Как собирать данные: руководство для ИИ-стартапов

2025-02-19 в 9:57, admin, рубрики: ai-first стартап, ИИ-инжиниринг, ии-стартап, машинное обучение, методы обучения LLM, обучение нейросетей, разметка данных, синтетические данные

В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

Как собирать данные: руководство для ИИ-стартапов - 1

Читать полностью »

Генерация табличных данных с помощью языковых моделей: делаем правильно

2025-02-07 в 15:49, admin, рубрики: генеративный ии, синтетические данные

В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности, отсутствия информации или необходимости тестирования алгоритмов перед их применением в реальных сценариях. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.

Читать полностью »

GAN и диффузионные модели: как научить нейросеть рисовать

2025-01-05 в 11:16, admin, рубрики: AI-арт, GAN, pytorch, stable diffusion, генеративные сети, датасеты, диффузионные модели, искусственный интеллект, машинное обучение, синтетические данные

Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)

Информация

Комментарии

Рекомендуем

Рубрика «синтетические данные»

Как спасти ИИ в эпоху, когда ИИ убивает сам себя?

Давайте детальнее копнем в проблему

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Кручу-верчу, обмануть хочу: как испортить картинку, чтобы нейросеть стала умнее

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Читать полностью »

Если нужно сгенерировать синтетические данные — подборка открытых решений

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

1. Вступление: синтетика выходит из-подполья

Почему это не очередная хайповая игрушка?

Генератор синтетических документов для обучения моделей ИИ

Как собирать данные: руководство для ИИ-стартапов

Генерация табличных данных с помощью языковых моделей: делаем правильно

GAN и диффузионные модели: как научить нейросеть рисовать

GAN: Генератор vs. Дискриминатор

Читать полностью »