Рубрика «big data» - 30

Создаем конвейер потоковой обработки данных. Часть 2

2019-08-05 в 14:52, admin, рубрики: big data, data science, Google Cloud Platform, programming, python, Towards Data Science, Блог компании OTUS. Онлайн-образование, хранение данных

Всем привет. Делимся переводом заключительной части статьи, подготовленной специально для студентов курса «Data Engineer». С первой частью можно ознакомиться тут.

Apache Beam и DataFlow для конвейеров реального времени

Создаем конвейер потоковой обработки данных. Часть 2 - 1

Настройка Google Cloud

Примечание: Для запуска конвейера и публикации данных пользовательского лога я использовал Google Cloud Shell, поскольку у меня возникли проблемы с запуском конвейера на Python 3. Google Cloud Shell использует Python 2, который лучше согласуется с Apache Beam.

Чтобы запустить конвейер, нам нужно немного покопаться в настройках. Тем из вас, кто раньше не пользовался GCP, необходимо выполнить следующие 6 шагов, приведенных на этой странице.Читать полностью »

Дайджест новостей машинного обучения и искусственного интеллекта за июль

2019-08-05 в 8:54, admin, рубрики: big data, data mining, Блог компании Mail.Ru Group, будущее, дайджест, данные, искусственный интеллект, машинное обучение, Новости

Привет, читатель! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости. В конце статьи вас ждут бонус и немного юмора.

Для тех, кто не читал дайджест за июнь, можете прочесть его здесь.

Итак, теперь собственно июльский дайджест.

1. ВКонтакте опубликовали библиотеку для предобработки текстовых данных. YouTokenToMe — это библиотека для предобработки текстовых данных. Инструмент работает в 7-10 раз быстрее аналогов для текстов на алфавитных языках и в 40-50 на иероглифических языках. Библиотека была разработана исследователями из ВКонтакте. → Подробнее

Читать полностью »

Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам

2019-08-04 в 19:47, admin, рубрики: big data, data mining, data science, R, параллельное программирование

Параллельные или распределенные вычисления — вещь сама по себе весьма нетривиальная. И среда разработки должна поддерживать, и DS специалист должен обладать навыками проведения параллельных вычислений, да и задача должна быть приведена к разделяемому на части виду, если таковой существует. Но при грамотном подходе можно весьма ускорить решение задачи однопоточным R, если у вас под руками есть хотя бы многоядерный процессор (а он есть сейчас почти у всех), с поправкой на теоретическую границу ускорения, определяемую законом Амдала. Однако, в ряде случаев даже его можно обойти.

Является продолжением предыдущих публикаций.Читать полностью »

В России создадут онлайн-сервис для торговли данными, собранными с автомобилей

2019-08-04 в 5:09, admin, рубрики: big data, глонасс, информационная безопасность, маркетинг, Разработка под e-commerce, скидки, торговля данными, транспорт, Управление e-commerce

Единая система сбора и обработки данных от бортовых компьютеров автомобилей может заработать в России в 2021 году, рассказал «Известиям» Евгений Белянко вице-президент по технологиям НП «ГЛОНАСС», федерального сетевого оператора в сфере навигационной деятельности).

Оператор будет продавать эту информацию коммерческим структурам для проведения таргетированных рекламных кампаний, рассчитанных на автовладельцев: «Любые данные от автомобиля можно будет получить только с согласия его владельца. При этом он вправе отказаться от передачи данных либо обменять их на выгодных для себя условиях на сервисы и скидки при оплате товаров и услуг», — подчёркивает выгоды автовдалельцев Евгений Белянко.
Читать полностью »

Ограничения машинного обучения

2019-08-03 в 11:56, admin, рубрики: big data, искусственный интеллект, искуственный интеллект, машинное обучение

Привет! Представляю вашему вниманию перевод статьи “The Limitations of Machine Learning“ автора Matthew Stewart.

Большинство людей, читающих эту статью, вероятно, знакомы с машинным обучением и соответствующими алгоритмами, используемыми для классификации или прогнозирования результатов на основе данных. Тем не менее, важно понимать, что машинное обучение не является решением всех проблем. Учитывая полезность машинного обучения, может быть трудно согласиться с тем, что иногда это не лучшее решение проблемы.

Читать полностью »

Статистика на службе у бизнеса. Методология расчёта множественных экспериментов

2019-08-03 в 6:38, admin, рубрики: a/b testing, big data, Bootstrap, data mining, python, анализ данных, аналитика, Аналитика мобильных приложений, продуктоовая аналитика

Добрый день!

Как и было обещано в предыдущей статье, сегодня мы продолжим разговор о методологиях, применяемых в A/B-тестировании и рассмотрим методы оценки результатов множественных экспериментов. Мы увидим, что методологии довольно просты, и математическая статистика не так страшна, а первооснова всего — аналитическое мышление и здравый смысл. Однако предварительно хотелось бы сказать пару слов о том, какие же бизнес-задачи помогают решать строгие математические методы, нужны ли они Вам на данном этапе развития Вашей компании и какие pros and cons существуют в Большой аналитике.
Читать полностью »

Kafka на Kubernetes — это хорошо?

2019-08-02 в 8:02, admin, рубрики: Apache, big data, kubernetes, Администрирование баз данных, базы данных, Блог компании Издательский дом «Питер», высокая производительность, книги, облачные технологии

Приветствуем вас!

В свое время мы первыми вывели на российский рынок тему Kafka и продолжаем следить за ее развитием. В частности, нам показалась интересной тема взаимодействия Kafka и Kubernetes. Обзорная (и довольно осторожная) статья на эту тему выходила в блоге компании Confluent еще в октябре прошлого года под авторством Гвен Шапиры. Сегодня же мы хотим обратить ваше внимание на более свежую, апрельскую статью Йоханна Гайгера (Johann Gyger), который, хотя и не обошелся без вопросительного знака в названии, рассматривает тему в более предметном ключе, сопровождая текст интересными ссылками. Простите нам пожалуйста вольный перевод «chaos monkey», если сможете!

Читать полностью »

Активное обучение ранжированию

2019-07-30 в 15:25, admin, рубрики: big data, mail.ru, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение, поиск, поисковые технологии, ранжирование

Этим постом я открываю серию, где мы с коллегами расскажем, как используется ML у нас в Поиске Mail.ru. Сегодня я объясню, как устроено ранжирование и как мы используем информацию о взаимодействии пользователей с нашей поисковой системой, чтобы сделать поисковик лучше.

Задача ранжирования

Что подразумевается под задачей ранжирования? Представим, что в обучающей выборке есть какое-то множество запросов, для которых известен порядок документов по релевантности. Например, вы знаете, какой документ самый релевантный, какой второй по релевантности и т.д. И вам нужно восстановить такой порядок для всей генеральной совокупности. То есть для всех запросов из генеральной совокупности на первое место поставить самый релевантный документ, а на последнее — самый нерелевантный.

Давайте посмотрим, как такие задачи решаются в больших поисковых системах.

Читать полностью »

Ты ничего не знаешь про фудтех

2019-07-30 в 15:11, admin, рубрики: big data, delivery, Dodo Pizza Engineering, dodopizza, foodtech, smart home, smartprogress, Блог компании Dodo Pizza Engineering, будущее здесь, искусственный интеллект, клиентский сервис, Научно-популярное, технологии будущего

Зачем ходить в ресторан, если любую еду вкусной и горячей могут доставить тебе до двери дома или офиса? Глобальный рынок общественного питания делится на два больших лагеря: офлайн рестораны и доставка еды. Кажется, что первые терпят поражение и проигрывают битву за клиентов. Но не торопитесь с выводами.

Под катом вы найдёте про «buzzwords» в фудтехе: smart-технологии, big data и искусственный интеллект.

Ты ничего не знаешь про фудтех - 1
Читать полностью »

Иерархическая кластеризация категориальных данных в R

2019-07-29 в 13:35, admin, рубрики: big data, clustering, data science, R, segmentation, visualization, Блог компании OTUS. Онлайн-образование

Перевод подготовлен для студентов курса «Прикладная аналитика на R».

Иерархическая кластеризация категориальных данных в R - 1

Это была моя первая попытка выполнить кластеризацию клиентов на основе реальных данных, и она дала мне ценный опыт. В Интернете есть множество статей о кластеризации с использованием численных переменных, однако найти решения для категориальных данных, работа с которыми несколько сложнее, оказалось не так просто. Методы кластеризации категориальных данных еще только разрабатываются, и в другом посте я собираюсь попробовать еще один.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «big data» - 30

Создаем конвейер потоковой обработки данных. Часть 2

Настройка Google Cloud

Дайджест новостей машинного обучения и искусственного интеллекта за июль

Несколько соображений по поводу параллельных вычислений в R применительно к «enterprise» задачам

В России создадут онлайн-сервис для торговли данными, собранными с автомобилей

Ограничения машинного обучения

Статистика на службе у бизнеса. Методология расчёта множественных экспериментов

Kafka на Kubernetes — это хорошо?

Активное обучение ранжированию

Задача ранжирования

Ты ничего не знаешь про фудтех

Иерархическая кластеризация категориальных данных в R