Рубрика «синтетические данные»

«Все крупные корпорации и социальные сети уже давно хотят помечать контент, созданный искусственным интеллектом, отдельным специальным признаком. Безусловно, можно говорить о том, что это делается ради заботы о пользователях — чтобы люди не сидели бесконечно и не потребляли абсолютно одинаковый контент. Но у этой инициативы есть и совершенно эгоистичные цели: платформам жизненно необходимо физически отделить контент, созданный живыми людьми, от материалов, сгенерированных нейросетями».

Давайте детальнее копнем в проблему

Синтез фотореалистичных сцен, их точных карт глубины и сегментационных масок

Синтез фотореалистичных сцен, их точных карт глубины и сегментационных масок

Читать полностью »

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).

Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

Читать полностью »

Если нужно сгенерировать синтетические данные — подборка открытых решений - 1

Про снижение расходов на работу с данными расскажемЧитать полностью »

1. Вступление: синтетика выходит из-подполья

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.

Почему это не очередная хайповая игрушка?

  • Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.

  • Приватность без компромиссов.Читать полностью »

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Кратко:

  1. Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхаб

  2. Язык текста: можно выбрать.

  3. Читать полностью »

В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

Как собирать данные: руководство для ИИ-стартапов - 1

Читать полностью »

В мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности, отсутствия информации или необходимости тестирования алгоритмов перед их применением в реальных сценариях. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.

Читать полностью »

GAN и диффузионные модели: как научить нейросеть рисовать - 1

Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)

GAN: Генератор vs. Дискриминатор

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js