Рубрика «генерация данных»

Демобаза 2.0 для PostgreSQL

2025-10-28 в 6:06, admin, рубрики: postgres, Postgres Pro, postgresql, генерация данных, демобаза, имитационное моделирование

Девять лет назад мы создали базу данных, которая не должна была никого особенно интересовать — только учить SQL. Она была простой, как таблица умножения, и вроде бы не менялась. Но как оказалось, даже самая скромная база может стать мостом между разными культурами, языками и поколениями разработчиков — если её не трогать слишком долго.

Читать полностью »

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

2025-07-22 в 20:35, admin, рубрики: генеративные модели, генерация данных, диффузионные модели, конфиденциальность, наука о данных, нейронные сети, синтетические данные

1. Вступление: синтетика выходит из-подполья

Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.

Почему это не очередная хайповая игрушка?

Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.
Приватность без компромиссов.Читать полностью »

Генератор тестовых данных для C++

2017-04-15 в 12:10, admin, рубрики: c++, tdd, генерация данных, Программирование, Тестирование IT-систем

При unit-тестированиии кода рано или поздно встает вопрос тестовых данных. И если в одном случае достаточно просто несколько жестко зашитых переменных, то в других случаях необходимы сколько-нибудь большие и случайные данные. В управляемом мире нет проблем с генерацией пользовательских типов (взять тот же Autofixture), но мир C++ зачастую вызывает боль и страдание(поправьте меня, если это не так). Не так давно я познакомился с замечательной библиотекой boost::di и под ее влиянием у меня начала созревать идея библиотеки, которая позволила бы C++ программистам генерировать пользовательские типы данных, забитых случайными значаниями, и это не потребовало бы предварительного их описания. Получилось что-то вроде:

struct dummy_member{
    float a;
    int b;
};
struct dummy{
    explicit dummy(dummy_member val, std::string c) : val_(val), c_(c) {}
private:
    dummy_member val_;
    std::string c_;
};
int main(int argc, char* argv){
    auto d = datagen::random<dummy>();
    return 0;
}

Ссылка на код (https://github.com/ukhegg/datagen). Библиотека header-only,C++14. Всех интересующихся прошу под кат.

Читать полностью »

Демонстрационная база данных для PostgreSQL

2016-11-30 в 9:32, admin, рубрики: postgresql, sql, базы данных, Блог компании Postgres Professional, генерация данных, демонстрация

В этой заметке я расскажу о нашей демонстрационной базе данных для PostgreSQL: почему она важна для нас и как может пригодиться вам, как устроена схема и какие данные в ней содержатся.

Сразу приведу ссылку на полное описание (там же написано, где взять демо-базу и как ее установить).

Читать полностью »

Генерация и визуализация многомерных данных с R

2016-03-20 в 12:53, admin, рубрики: R, Блог компании Инфопульс Украина, визуализация, визуализация данных, генерация данных

Возможность генерировать данные с заданной корреляцией очень важна для моделирования. В R ожидаемо обширный набор инструментов — пакетов и функций для генерации и визуализации данных из многомерных распределений. Базовая функция для генерации многомерных нормально распределенных данных — mvrnorm() из пакета MASS, части R, хотя пакет mvtnorm также предлагает функции для симуляции и многомерного нормального, и t-распределения.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «генерация данных»

Демобаза 2.0 для PostgreSQL

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

1. Вступление: синтетика выходит из-подполья

Почему это не очередная хайповая игрушка?

Генератор тестовых данных для C++

Демонстрационная база данных для PostgreSQL

Генерация и визуализация многомерных данных с R