«Короли математики»: аналитика Big Data в банке. Проект ГАУСС в ВТБ

в 9:06, , рубрики: big data, Блог компании ВТБ, втб

Какие банковские предложения по открытию текущих счетов и депозитов можно считать удачными, а какие стоит доработать? Что можно улучшить в процедуре проведения валютно-обменных операций и в дистанционном банковском обслуживании? Мы в Департаменте транзакционного бизнеса ВТБ постоянно работаем над поиском ответов на эти вопросы. Как нам в этом помогает использование IT-стратегии развития и как от этого выигрывают клиенты – читайте под катом.

«Короли математики»: аналитика Big Data в банке. Проект ГАУСС в ВТБ - 1

Как быстро сосчитать сумму чисел от 1 до 100? Согласно легенде, первым эту задачку решил великий немецкий математик Карл Фридрих Гаусс, еще будучи школьником. Он заметил, что попарные суммы с противоположных концов одинаковы: 1+100=101, 2+99=101 и т. д., и мгновенно получил результат 50х101=5050, продемонстрировав замечательные аналитические способности.

Повторяющиеся задания по обработке данных, ежедневно возникающие в современном банке, гораздо сложнее задачи, с которой справился будущий «король математики» в конце VIII века. Однако подход к их решению с тех пор не поменялся. Как и прежде, чтобы быстрее получить результат и повысить его точность, нужно автоматизировать процессы.

Строить финансовые прогнозы, создавать аналитические отчеты, анализировать тренды и риски без внедрения решений Big Data – это то же самое, что считать сумму чисел от 1 до 100, поочередно складывая числа. Пилотный проект ГАУСС (GAUSS, Global Transaction Business Analytic Union Source & System), запущенный в Департаменте транзакционного бизнеса ВТБ в начале этого года, помогает собрать воедино всю информацию из различных базы данных банка и автоматизировать работу с ней.

Что такое ГАУСС XXI века?

В современном банке сосредоточено огромное количество данных по всем операциям, и их объемы постоянно растут. Эта информация представляет огромную ценность, но чтобы не утонуть в ней, нужно научиться правильно ее использовать.

Проект ГАУСС начался с объединения всей имеющейся в банке информации за 2014-2016 годы и реализации удобного доступа к ней. Сотрудники, работающие с системой, могут в любой момент получить интересующие их материалы по неограниченному сочетанию параметров и вариантов. А значит, на подготовку отчетов уходит пара часов, а не несколько дней, как раньше, эффективность работы сотрудников возрастает. На основе отчетов принимаются решения по улучшению качества обслуживания клиентов, создания более интересных предложений и т. д.

Дальше планируется развивать проект, расширяя базу данных за счет добавления статистической информации из всех возможных источников. ГАУСС должен стать основой для построения единого корпоративного «озера данных» (Data Lake), куда всякий раз можно будет «нырять» за информацией, которая важна в данный момент.

Однако сфера применения проекта ГАУСС гораздо шире, чем простое создание отчетов. Мы надеемся, что очень скоро с его помощью можно будет:

· оценивать различные риски (кредитные, клиентские, партнерские);
· выявлять мошеннические схемы;
· моделировать целевые коммерческие предложения;
· работать с аналитической системой Microsoft Business intelligence и пр.

Как работает ГАУСС?

Работая над проектом, мы сознательно отказались от использования коммерческих решений. Гаусс построен на стеке Hadoop / Hive / Ambari / Oozie / Spark / ORC / YARN, а для построения витрин данных мы используем реляционную базу данных PostgreSQL, которую мы считаем ведущей «открытой» реляционной СУБД в мире. Впрочем, вместо PostgreSQL можно использовать любую другую БД без ущерба для работы системы.

Из-за огромного количества постоянно поступающей информации и появления новых способов ее анализа любые проекты Big Data не могут быть решены с применением типовых шаблонов, это всегда новая комплексная задача. Поэтому мы построили стройную многоступенчатую архитектуру загрузки RAW информации от всех источников, далее агрегации, обработки и обогащения этих данных, а уже после подготовки финальных OLAP-кубов данных и витрин представления информации. Для решения задачи по корректному представлению данных были разработаны гибкие механизмы по маппированию исходных данных с целевой информацией, системы по проверке качества (Data Governance) сформированной информации, а также механизмы по получению детальной информации по агрегатам (data drilldown). Это позволяет безболезненно менять направление работы по ходу реализации проекта, адаптироваться к изменениям. Система ГАУСС разрабатывается по Agile/Scrum методологии, которая позволяет принимать во внимание новые требования бизнес-заказчиков, полученные отзывы, поступающие данные и при этом нацеливать каждого члена команды на достижение результата. Ведь когда работаешь с Big Data, все время возникают новые гипотезы относительно того, как можно использовать спрятанную в петабайтах «озера данных» информацию.

Автор: Банк ВТБ

Источник

Поделиться

* - обязательные к заполнению поля