Рубрика «big data»

С бородой, в тёмных очках и в профиль: трудные ситуации для компьютерного зрения - 1

Технологии и модели для нашей будущей системы компьютерного зрения создавались и совершенствовались постепенно и в разных проектах нашей компании — в Почте, Облаке, Поиске. Вызревали как хороший сыр или коньяк. Однажды мы поняли, что наши нейросети показывают отличные результаты в распознавании, и решили свести их в единый b2b-продукт — Vision, — которым мы теперь пользуемся сами и предлагаем воспользоваться вам.

Сегодня наша технология компьютерного зрения на платформе Mail.Ru Cloud Solutions успешно трудится и решает очень сложные практические задачи. В её основе лежит ряд нейронных сетей, которые обучены на наших дата-сетах и специализируются на решении прикладных задач. Все сервисы крутятся на наших серверных мощностях. Вы можете интегрировать в свои приложения публичный API Vision, через который доступны все возможности сервиса. API быстродействующий — благодаря серверным GPU среднее время отклика внутри нашей сети на уровне 100 мс.

Заходите под кат, там подробный рассказ и много примеров работы Vision.
Читать полностью »

Как эффективно работать с json в R?

Является продолжением предыдущих публикаций.Читать полностью »

Публикация по выступлению на секции R meetup @ Moscow Data Science Major (Spring 2019).
Вся презентация в pdf формате.

Почему этот вопрос актуален?

Бизнес-кейсы различны, техническая суть одинакова

  • Аналитика работы колл-центра
  • Аналитика продаж, включая прогнозы
  • Антифрод системы
  • Business process mining
  • Различные аудиты (технические, финансовые)
  • Складские и логистические задачи
  • Activity-based costing
  • Business-process monitoring
  • Log-based аналитика
  • Capacity management
  • Текстовая аналитика (e-mail, service-desk)
  • "Гибкие" дашборды и отчеты
  • "интеллектуальные шины" между учетными системами (1С, СКУД, SAP, ...) и исполнительными
  • ...

Является продолжением предыдущих публикаций.Читать полностью »

SNA Hackathon 2019 — итоги - 1

1-го апреля завершился финал SNA Hackathon 2019, участники которого соревновались в сортировке ленты социальной сети с использованием современных технологий машинного обучения, компьютерного зрения, обработки тестов и рекомендательных систем. Жесткий онлайн отбор и двое суток напряженной работы над 160 гигабайтами данных не прошли даром :). Рассказываем о том, что помогло участникам прийти к успеху и о других интересных наблюдениях.

Читать полностью »

GeekUniversity открывает набор на факультет Аналитики Big Data - 1

В нашем онлайн-университете для программистов открылся новый факультет Аналитики Big Data. За полтора года студенты освоят все современные технологии аналитики больших данных и получат необходимый опыт для работы в крупных IT-компаниях. GeekUniversity — совместный образовательный проект Mail.ru Group и GeekBrains с гарантированным трудоустройством.

Поступить в GeekUniversity могут все желающие. Абитуриентам факультета Аналитики Big Data будет предложено пройти тест с теоретическими вопросами. Если результат окажется ниже проходного балла, можно воспользоваться подготовительными курсами, чтобы добрать недостающие знания.

Читать полностью »

Глава Visa в России Екатерина Петелина, рассказала, «Ведомостям», что платёжная система и бюро кредитных историй (БКИ) «Эквифакс» запустили совместный сервис по оценке кредитоспособности россиян. Союз с БКИ позволил платёжной системе обойти собственные же ограничения: «Visa не знает, кому принадлежат карты», — напомнила Петелина, — только 16-значный номер, Читать полностью »

Продуктовая аналитика ВКонтакте на базе ClickHouse - 1

Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.
Читать полностью »

image
Бессерверные архитектуры фундаментальным образом сказываются на лимитирующих факторах, сковывающих разработку продукта.

Продакт-менеджеры в организации выступают во множестве амплуа. Иногда их называют «голос клиента», иногда отводят роль «корпоративного котопаса». Это толстокожая братия, люди, неумолимо ведущие вас к сдаче продукта, несмотря на всякую этику или оправдания. Хороший продакт-менеджер редко становится чьим-нибудь кумиром, но именно благодаря труду таких людей воплощено большинство технологических решений, которыми вам когда-либо доводилось пользоваться.
Читать полностью »

Время необходимое на прочтение 11 минут

Мы и Квадрат Гартнера 2019 BI :-)

Целью данной статьи является сравнение трёх ведущих BI платформ, которые находятся в лидерах квадранта Gartner:

— Power BI (Microsoft)
— Tableau
— Qlik

image
Рисунок 1. Gartner BI Magic Quadrant 2019

Меня зовут Жданов Андрей, я руководитель отдела аналитики компании Аналитикс Групп (www.analyticsgroup.ru). Мы строим наглядные отчёты по маркетингу, продажам, финансам, логистике, другими словами занимаемся бизнес аналитикой и визуализацией данных.

Я со своими коллегами уже несколько лет работаем с различными BI платформами. Имеем весьма неплохой опыт проектов, что позволяет нам сравнивать платформы с точки зрения разработчиков, аналитиков, бизнес-пользователей и внедренцев BI систем.

У нас будет отдельная статья по сравнению цен и визуальному оформлению этих BI систем, поэтому тут постараемся оценить эти системы именно с точки зрения аналитика и разработчика.

Выделим несколько направлений для анализа и оценим по 3 бальной системе:

— Порог вхождения и требования к аналитику;
— Источники данных;
— Очистка данных, ETL (Extract, Transform, Load)
— Визуализации и разработка
— Корпоративная среда — сервер, отчеты
— Поддержка мобильных устройств
— Embedded (встроенная) аналитика в сторонние приложения/сайты

Читать полностью »

image

Мы подготовили для читателей Хабры перевод статьи команды Uber Labs. Коллеги из Uber описывают процесс работы аналитиков узкоспециализированного типа (в области науки о поведении) в рамках огромной корпорации, как устроено их взаимодействие с аналитиками других типов (UX-исследователи, продуктовые аналитики) и коллегами из других команд (продуктовых, внутренней разработки), какие задачи они решают и как к ним подходят. Комментирует материал Глеб Сологуб, директор по аналитике Skyeng.

В Uber Labs мы стремимся использовать идеи и методы науки о поведении, чтобы создавать интуитивно понятные и приятные программы и продукты. Члены нашей команды имеют ученые степени по психологии, маркетингу и когнитивным наукам, обладают знаниями предметных областей — таких, как принятие решений, мотивация и обучение, методологические возможности в дизайне экспериментов, а также являются экспертами по статистическому моделированию и причинно-следственным подходам. Эти знания позволяют нам глубоко анализировать проблемы повышения степени удовлетворенности клиентов, а благодаря нашему опыту в области методологии и статистики мы можем измерить влияние удовлетворенности на бизнес (одним из таких подходов является моделирование посредника).
Читать полностью »