Девять лет назад мы создали базу данных, которая не должна была никого особенно интересовать — только учить SQL. Она была простой, как таблица умножения, и вроде бы не менялась. Но как оказалось, даже самая скромная база может стать мостом между разными культурами, языками и поколениями разработчиков — если её не трогать слишком долго.
Рубрика «генерация данных»
Демобаза 2.0 для PostgreSQL
2025-10-28 в 6:06, admin, рубрики: postgres, Postgres Pro, postgresql, генерация данных, демобаза, имитационное моделированиеФабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности
2025-07-22 в 20:35, admin, рубрики: генеративные модели, генерация данных, диффузионные модели, конфиденциальность, наука о данных, нейронные сети, синтетические данные1. Вступление: синтетика выходит из-подполья
Десять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.
Почему это не очередная хайповая игрушка?
-
Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.
-
Приватность без компромиссов.Читать полностью »
Генератор тестовых данных для C++
2017-04-15 в 12:10, admin, рубрики: c++, tdd, генерация данных, Программирование, Тестирование IT-систем
При unit-тестированиии кода рано или поздно встает вопрос тестовых данных. И если в одном случае достаточно просто несколько жестко зашитых переменных, то в других случаях необходимы сколько-нибудь большие и случайные данные. В управляемом мире нет проблем с генерацией пользовательских типов (взять тот же Autofixture), но мир C++ зачастую вызывает боль и страдание(поправьте меня, если это не так). Не так давно я познакомился с замечательной библиотекой boost::di и под ее влиянием у меня начала созревать идея библиотеки, которая позволила бы C++ программистам генерировать пользовательские типы данных, забитых случайными значаниями, и это не потребовало бы предварительного их описания. Получилось что-то вроде:
struct dummy_member{
float a;
int b;
};
struct dummy{
explicit dummy(dummy_member val, std::string c) : val_(val), c_(c) {}
private:
dummy_member val_;
std::string c_;
};
int main(int argc, char* argv){
auto d = datagen::random<dummy>();
return 0;
}
Ссылка на код (https://github.com/ukhegg/datagen). Библиотека header-only,C++14. Всех интересующихся прошу под кат.
Демонстрационная база данных для PostgreSQL
2016-11-30 в 9:32, admin, рубрики: postgresql, sql, базы данных, Блог компании Postgres Professional, генерация данных, демонстрацияВ этой заметке я расскажу о нашей демонстрационной базе данных для PostgreSQL: почему она важна для нас и как может пригодиться вам, как устроена схема и какие данные в ней содержатся.
Сразу приведу ссылку на полное описание (там же написано, где взять демо-базу и как ее установить).

Генерация и визуализация многомерных данных с R
2016-03-20 в 12:53, admin, рубрики: R, Блог компании Инфопульс Украина, визуализация, визуализация данных, генерация данных Возможность генерировать данные с заданной корреляцией очень важна для моделирования. В R ожидаемо обширный набор инструментов — пакетов и функций для генерации и визуализации данных из многомерных распределений. Базовая функция для генерации многомерных нормально распределенных данных — mvrnorm() из пакета MASS, части R, хотя пакет mvtnorm также предлагает функции для симуляции и многомерного нормального, и t-распределения.
Читать полностью »
