- PVSM.RU - https://www.pvsm.ru -
В 2008 BigData была новым термином и модным трендом. В 2019 BigData – это объект продажи, источник прибыли и повод для новых законопроектов.
Осенью прошлого года российское правительство инициировало законопроект о регулировании больших данных. Запрещается идентифицировать по информации людей, но разрешается делать это по запросу федеральных органов. Обработка BigData для третьих лиц – только после уведомления Роскомнадзора. Под закон попадают компании, в распоряжении которых больше 100 тысяч сетевых адресов. И, конечно, куда без реестров – предполагается создание такового со списком операторов БД. И если до этого BigData не всеми воспринималась всерьез, то теперь с ней придется считаться.
Не могу обойти стороной БД и я, как директор компании-разработчика биллинга, который эту самую BigData обрабатывает. Поразмышляю о больших данных через призму операторов связи, через чьи биллинговые системы ежедневно проходят потоки информации о тысячах абонентов.
Начнем, как в задаче по математике: сначала докажем, что данные операторов связи можно именовать BigDat’ой. Стандартно большие данные характеризуются тремя признаками VVV, хотя в вольных интерпретациях количество «V» доходило и до семи.
Volume. Один только MVNO Ростелекома обслуживает больше миллиона абонентов. Ключевые хост-операторы обрабатывают данные от 44 до 78 миллионов человек. Трафик растет ежесекундно: за первый квартал 2019 абоненты уже насерфили с мобильных телефонов 3,3 миллиарда Гб.
Velocity. Никто лучше статистики не расскажет о динамике, поэтому пройдусь по прогнозам Cisco. К 2021 году 20% IP-трафика достанется мобильному трафику – он вырастет почти в три раза за пять лет. Треть мобильных подключений придется на M2M – развитие IoT обусловит шестикратный рост соединений. Интернет вещей станет не только прибыльным, но и ресурсозатратным направлением, поэтому некоторые операторы сосредоточатся только на нем. А те, кто разовьет IoT отдельной услугой, получат двойной трафик.
Variety. Многообразие – понятие субъективное, но операторы связи действительно знают о своих абонентах почти все. От имени и паспортных данных до модели телефона, покупок, посещаемых местах и интересах. Медиа-файлы по закону Яровой хранятся от полугода. Так что примем за аксиому, что собираемые данные разнообразны.
Провайдеры – одни из главных потребителей BigData, поэтому большинство методик анализа больших данных применимы к отрасли телекома. Другой вопрос – кто готов вкладываться в развитие ML, AI, Deep Learning, инвестировать в ЦОДы и data mining. Полноценная работа с БД складывается из инфраструктуры и команды, затраты на которые не все могут себе позволить. Делать ставку на BigData стоит предприятиям, которые уже имеют корпоративное хранилище или развивают методику Data Governance. Тем же, кто еще не готов к длительным инвестициям, советую постепенно наращивать архитектуру ПО и ставить компоненты по очереди. Тяжелые модули и Hadoop можно оставить напоследок. Мало кто покупает готовое решение для задач типа Data Quality и Data Mining, в основном компании подгоняют систему под свою специфику и потребности – сами или с помощью разработчиков.
Но не любой биллинг можно модифицировать под работу с BigData. Вернее, модифицировать могут не только лишь все. Мало кто может это делать.
Три признака, что у биллинговой системы есть шанс стать инструментом обработки БД:
Что, как и для какой цели программа будет обрабатывать большие данные – решает команда. Часто она состоит из одного человека – data scientist’а. Хотя, на мой взгляд, минимальный пакет сотрудников для BigData включает в себя еще и Product-менеджера, Data Engineer’а, руководителя. Первый разбирается в услугах, переводит технический язык на человеческий и обратно. Data Engineer воплощает модели в жизнь с помощью Java/Scala и экспериментирует с Machine Learning. Руководитель координирует, ставит цели, контролирует этапы.
Как раз со стороны команды BigData обычно возникают проблемы при сборе и обработке данных. Программе нужно объяснить, что собирать и как обрабатывать – для того, чтобы это объяснить, нужно сначала самому понять. А у провайдеров не все не так просто. Рассказываю о проблемах на примере задачи по сокращению оттока абонентов – именно ее операторы связи пытаются решить с помощью BigData в первую очередь.
Постановка задач. Грамотно составленное ТЗ и разное понимание терминов – многовековая боль не только для фрилансеров. Даже «отвалившихся» абонентов можно интерпретировать по-разному – как не пользующихся услугами оператора месяц, полгода или год. А для создания MVP на исторических данных нужно понимать частоту возвратов абонентов из оттока – тех, кто пробовал связь других операторов или уезжал из города и пользовался другим номером. Еще один важный вопрос: за сколько времени до предполагаемого ухода абонента провайдер должен это определить и принять меры? За полгода – рано, за неделю – уже поздно.
Подмена понятий. Обычно операторы определяют клиента по номеру телефона, поэтому логично, что признаки нужно выгружать по нему. А что насчет лицевого счета или номера обслуживающего приложения? Нужно определиться, какую единицу следует принимать за клиента, чтобы данные в системе оператора не разнились. Оценка ценности клиента тоже под вопросом – какой абонент более ценный для компании, для удержания какого пользователя нужно приложить больше усилий, а какие «отвалятся» в любом случае и нет смысла тратить на них ресурсы.
Недостаток информации. Далеко не все сотрудники провайдера способны объяснить команде BigData, что конкретно влияет на отток абонентов и как считаются возможные факторы в биллинге. Даже если назвали один из них – ARPU, – оказывается, что и его посчитать можно по-разному: или по периодическим платежам клиента, или по автоматическим начислениям биллинга. А в процессе работы возникает миллион других вопросов. Всех ли клиентов охватывает модель, какова цена за удержание клиента, есть ли смысл продумывать альтернативные модели и что делать с клиентами, которых стали по ошибке искусственно удерживать.
Целеполагание. Я знаю три вида ошибок, связанных с результатом, которые заставляют операторов разочаровываться в БД.
К слову о результатах. Пробегусь по способам использования и монетизации BigData, которыми уже пользуются операторы связи.
Провайдеры прогнозируют не только отток абонентов, но и нагрузки на базовые станции.
Пока кто-то до сих пор считает BigData пустым звуком, «большая четверка» уже делает на ней деньги. МТС за полгода зарабатывает на обработке больших данных 14 миллиардов рублей, а Tele2 увеличил выручку от проектов в три с половиной раза. BigData превращается из тренда в must have, под который будет перестраиваться вся структура операторов связи.
Автор: Форвард-Телеком
Источник [1]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/budushhee-zdes/326632
Ссылки в тексте:
[1] Источник: https://habr.com/ru/post/463179/?utm_source=habrahabr&utm_medium=rss&utm_campaign=463179
Нажмите здесь для печати.