Рубрика «big data»

Привет! Меня зовут Анна, я руководитель образовательных проектов в Avito. Нам кажется очень важным способствовать тому, чтобы начинающие (и не только) разработчики узнавали о самых крутых технологиях на рынке. Поэтому мы делаем целый пул образовательных онлайн-проектов в партнёрстве с лучшими площадками. Подробно о них рассказываю под катом, там же раскрываю наши планы на будущее.

Программировать хочу, пусть меня научат! Образовательные проекты Avito - 1

Читать полностью »

image

Проблема предсказания оттока клиентов — одна из самых распространенных в практике Data Science (так теперь называется применение статистики и машинного обучения к бизнес-задачам, уже все знают?). Проблема достаточно универсальна: она актуальна для многих отраслей — телеком, банки, игры, стриминг-сервисы, ритейл и пр. Необходимость ее решения довольно легко обосновать с экономической точки зрения: есть куча статей в бизнес-журналах о том, что привлечь нового клиента в N раз дороже, чем удержать старого. И ее базовая постановка проста для понимания так, что на ее примере часто объясняют основы машинного обучения.

Для нас в Plarium-South, как и для любой игровой компании, эта проблема также актуальна. Мы прошли длинный путь через разные постановки и модели и пришли к достаточно оригинальному, на наш взгляд, решению. Все ли так просто, как кажется, как правильно определить отток и зачем тут нейросеть, расскажем под катом.Читать полностью »

Недавно в Avito прошёл первый Product Analytics Meetup. Мы говорили об NPS в продуктовой разработке, персонализации веб-сайтов на основе customer journey map, кросс-продуктовых эффектах, способах повышения конверсии, построении и эволюции аналитических хранилищ данных. Под катом — видеозаписи выступлений, слайды от докладчиков и ссылка на фотоотчёт.

Avito Product Analytics Meetup — видео, фото, слайды - 1

Читать полностью »

Фонд развития интернет-инициатив (ФРИИ) разработал концепцию законопроекта о регулировании больших данных и предложил включить в закон о персональных данных компании-посредники, которые бы знали, какой оператор хранит нужные бизнесу данные пользователей, но самими данными не располагает. Об этом сообщают «Ведомости» со ссылкой на документ.

Читать полностью »

Является продолжением предыдущих публикаций.

Очень часто попытки применить инструменты DataScience в корпоративной среде встают в полное противоречие с требованиями Службы Информационной Безопасности (СИБ). В мире DataScience рекомендация «поставь с гитхаба» становится практически нерешаемой при полной изоляции аналитической машины от интернета. Тем не менее, задача запуска на linux инфраструктуры R в offline окружении вполне решаемая. Ниже приведу последовательность мантр, которые позволят это исполнить. Если какие-то шаги будут не совсем прозрачными, то скорректирую по мере появления комментариев. Эти же шаги можно использовать и для online инсталляции, пропуская шаги, относящиеся к хитрым трюкам или созданию локальных репозиториев. Собрано по крупицам на основании многократных инсталляций под разнообразные задачи. Практика показала, что тема весьма актуальна.

Читать полностью »

Лекции Техносферы. Нейронные сети в машинном обучении - 1

Представляем вашему вниманию очередную порцию лекций Техносферы. На курсе изучается использование нейросетевых алгоритмов в различных отраслях, а также отрабатываются все изученные методы на практических задачах. Вы познакомитесь как с классическими, так и с недавно предложенными, но уже зарекомендовавшими себя нейросетевыми алгоритмами. Так как курс ориентирован на практику, вы получите опыт реализации классификаторов изображений, системы переноса стиля и генерации изображений при помощи GAN. Вы научитесь реализовать нейронные сети как с нуля, так и на основе библиотеке PyTorch. Узнаете, как сделать своего чат-бота, как обучать нейросеть играть в компьютерную игру и генерировать человеческие лица. Вы также получите опыт чтения научных статей и самостоятельного проведения научного исследования.

Читать полностью »

Здравствуйте, уважаемые читатели!

Мы вполне убедились в мегапопулярности глубокого обучения (Deep Learning) на языке Python в нашей целевой аудитории. Теперь предлагаем поговорить о высшей лиге глубокого обучения — то есть, о решении этих задач на языке Java при помощи библиотеки Deeplearning4j. Мы перевели для вас июньскую статью из блога компании Cloudera, где в интереснейших подробностях рассказано о специфике этой библиотеки и о глубоком обучении в Hadoop и Spark.

Приятного чтения.
Читать полностью »

Disclaimer

Все мы видим, что сфера продвинутой аналитики набирает обороты и все больше специалистов интересуются данной областью. При этом понятной и доступной информации о построении процесса бизнес-анализа при разработке аналитических приложений в открытых источниках не так много. Поэтому очень сложно определиться с правильным рецептом (последовательностью действий) в рамках данного направления. В связи с этим я решил систематизировать ключевые ингредиенты и поделиться с вами пошаговой инструкцией, которая описывает действия аналитика по проработке предметной области и превращении туманной задачи «сделай то, не знаю что» в детальные требования к будущему приложению.

Построение процесса бизнес-анализа в проектах по разработке BI-приложений с продвинутой визуализацией - 1

Читать полностью »

Mail.Ru Group и X5 Retail Group объявляют о начале партнерства в области таргетинга онлайн-рекламы и оценки ее влияния на продажи в конкретных магазинах. Новый инструмент уже протестирован международным рекламным холдингом Dentsu Aegis Network.

В рамках сотрудничества Mail.Ru Group и X5 клиенты платформы myTarget получат доступ к обезличенным данным ритейлера о покупательском поведении, что позволит совершенствовать таргетинг и соотносить данные о показах рекламы с результатами продаж в универсамах «Читать полностью »