Рубрика «синтетические данные»
BLIMP — Пайплайн синтеза и разметки изображений в Blender
2026-01-26 в 12:37, admin, рубрики: blender, blender 3d, blender 4.5, data engineering, data mining, изображения, искусственный интеллект, пайплайн, синтетические данные
«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»
2025-10-28 в 20:08, admin, рубрики: ocr, исторические данные, нейросеть, разметка данных, распознавание текста, синтетические данныеПроект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).
Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.
Читать полностью »
Если нужно сгенерировать синтетические данные — подборка открытых решений
2025-07-30 в 13:22, admin, рубрики: llm, ml, MWS, данные, датасеты обучения, обучение моделей, синтетические данные
Про снижение расходов на работу с данными расскажемЧитать полностью »
Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности
2025-07-22 в 20:35, admin, рубрики: генеративные модели, генерация данных, диффузионные модели, конфиденциальность, наука о данных, нейронные сети, синтетические данные1. Вступление: синтетика выходит из-подполья
Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.
Почему это не очередная хайповая игрушка?
-
Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.
-
Приватность без компромиссов.Читать полностью »
Генератор синтетических документов для обучения моделей ИИ
2025-06-20 в 13:55, admin, рубрики: ocr, распознавание документов, синтетические данныеГде взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.
Кратко:
-
Генератор создает синтетические PNG-картинки сканированных документов с разметкой. Ссылка на гитхаб
-
Язык текста: можно выбрать.
- Читать полностью »
Как собирать данные: руководство для ИИ-стартапов
2025-02-19 в 9:57, admin, рубрики: ai-first стартап, ИИ-инжиниринг, ии-стартап, машинное обучение, методы обучения LLM, обучение нейросетей, разметка данных, синтетические данныеВ 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

Генерация табличных данных с помощью языковых моделей: делаем правильно
2025-02-07 в 15:49, admin, рубрики: генеративный ии, синтетические данныеВ мире анализа данных и машинного обучения качественные табулированные данные играют ключевую роль. Однако далеко не всегда у специалистов есть доступ к реальным данным из-за конфиденциальности, отсутствия информации или необходимости тестирования алгоритмов перед их применением в реальных сценариях. В таких случаях на помощь приходят языковые модели, способные генерировать структурированные таблицы с синтетическими данными.
GAN и диффузионные модели: как научить нейросеть рисовать
2025-01-05 в 11:16, admin, рубрики: AI-арт, GAN, pytorch, stable diffusion, генеративные сети, датасеты, диффузионные модели, искусственный интеллект, машинное обучение, синтетические данные
Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)
GAN: Генератор vs. Дискриминатор
Читать полностью »
Законы масштабирования – архитектура O1 Pro — Инфраструктура синтетических данных, RLAIF, токеномика вычислений
2024-12-27 в 11:09, admin, рубрики: AI Lab, Claude 3.5 Opus, llm, O1 Pro, OpenAI, RLAIF, RLHF, supervised fine-tuning, Законы масштабирования, синтетические данные
С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИЧитать полностью »

