Рубрика «data science» - 17

Применяем Data Science в мирных целях покупки дома

2020-02-22 в 7:50, admin, рубрики: data mining, data science, diy или сделай сам, geospatial computing, montreal, R, real estate, Лайфхаки для гиков

Чтобы продать что-нибудь ненужное, нужно сначала купить что-нибудь ненужное, а у нас денег нет.
— Трое из Простоквашино

Введение

Так получилось, что я живу в своей квартире (или кондо по-местному) в Монреале. И однажды, примерно год назад меня посетила мысль что неплохо-бы перебраться в собственный дом. Некоторый опыт покупки и продажи жилья у меня уже был и, в принципе, можно было-бы подойти к этому вопросу просто, как поступает большинство местных обывателей: нанять риэлтора и предоставить ему разобраться со всеми вопросами, но это было-бы скучно и не интересно.

Поэтому я решил подойти к этому делу научно: есть задача надо разобраться сколько примерно то что у меня есть, и где находится то что я могу себе позволить. Ну и попутный вопрос — понять куда дует ветер. И изучить гео-пространственные вычисления в R.

Читать полностью »

Создать мощный курс Machine Learning: миссия выполнена

2020-02-21 в 12:28, admin, рубрики: big data, data science, machine learning, Блог компании OTUS. Онлайн-образование, Карьера в IT-индустрии, курсы, машинное обучение, образование онлайн

Создать мощный курс Machine Learning: миссия выполнена - 1

У нас было 2 неудачных запуска, 169 студентов, 8 сердитых отзывов, 3 смены названий, слишком много теории и мало реальной практики. Не то чтобы это было полным провалом, но если начал обучать Data Science, надо сделать это идеально. Сегодня вы услышите историю о том, как мы развивали в OTUS направление анализа данных и какие на этом пути допустили, а потом исправили ошибки.

Читать полностью »

Спам, спам, спам…

2020-02-19 в 12:56, admin, рубрики: big data, data science, антиспам, Блог компании МТС, машинное обучение

Каждый активный абонент в среднем получает более четырех нежелательных звонков в неделю — это реклама, предложения банков, иногда просто мошенничество. Большинство клиентов негативно реагируют на такого рода звонки. Для решения этой проблемы мы разработали услугу “Блокировка спам-звонков”, подключив которую, пользователь перестает получать нежелательные звонки, а в конце каждого дня система оповещает абонента о вызовах, которые были заблокированы. В этой статье data scientist’ы МТС Анна Рожкова (@RogotulkA) и Ольга Герасимова(@ynonaolga) расскажут как разработали алгоритм, отличающий номера спамеров от остальной абонентской базы.

Читать полностью »

Null проблема в Data Science и Machine Learning

2020-02-17 в 2:40, admin, рубрики: data engineering, data science, machine learning, NaN, natural language processing, None, null, Алгоритмы, машинное обучение, Семантика

Существующее определение Null в Data Science сильно ограничено. Приложив немножко усилий? мы значительно улучшим обработку данных, ранее попадаемых в Null.

Читать полностью »

Natural Language Processing. Итоги 2019 и тренды на 2020

2020-02-11 в 14:04, admin, рубрики: data mining, data science, deep learning, machine learning, machine translation, natural language processing, neural networks, nlp, ods, recurrent neural network, Transformers, Блог компании Huawei, искусственный интеллект, машинное обучение

Всем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.

BERTs, BERTs are everywhere

Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:

Natural Language Processing. Итоги 2019 и тренды на 2020 - 1
Читать полностью »

«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?

2020-02-10 в 14:06, admin, рубрики: big data, data engineering, data science, kolesa group, machine learning, зарплаты, исследование, Казахстан, Карьера в IT-индустрии

Дмитрий Казаков, Data Analytics Team Lead в Kolesa Group, делится инсайтами из первого казахстанского опроса специалистов по работе с данными.

«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане? - 1
На фото: Дмитрий Казаков

Помните популярную фразу о том, что Big Data больше всего напоминает подростковый секс – все о нем говорят, но никто не знает, есть ли он на самом деле. То же самое можно было сказать и о рынке специалистов по работе с данными (в Казахстане) – хайп есть, а кто за ним стоит (~~и есть ли там вообще хоть кто-то~~), не было до конца понятно – ни эйчарам, ни менеджерам, ни самим дата-сайентистам.

Мы провели исследование, в рамках которого опросили более 300 специалистов об их зарплатах, функциях, скиллах, инструментах и много еще о чем.

Спойлер: да, они точно существуют, но все не так однозначно.

Приятный инсайт. Во-первых, специалистов по работе с данными больше чем мы ожидали. Нам удалось опросить 300 человек, среди которых есть не только product-, marketing- и BI-аналитики, но и ML-, DWH-инженеры, что особенно порадовало. В самой большой группе оказались все те, кто называет себя дата-сайентистами – это 36% опрошенных. Покрывает это запрос рынка или нет, сказать сложно, потому что сам рынок только формируется. Читать полностью »

Сертификация по программе IBM Data Science Professional Certificate

2020-02-07 в 8:17, admin, рубрики: analysis data, classification, data science, data visualization, foursquare, location data, machine learning, ml, pandas, python, scikit-learn, визуализация данных, машинное обучение

Статья является кратким обзором о сертификации по программе IBM Data Science Professional Certificate.

Будучи новичком в Python, мне пришлось столкнуться с реализацией задач:

Загрузка и парсинг HTML таблиц
Очистка загруженных данных
Поиск географических координат по адресу объекта
Загрузка и обработка GEOJSON
Построение интерактивных тепловых карт (heat map)
Построение интерактивных фоновых картограмм (choropleth map)
Преобразование географических координат между сферической WGS84 и картезианский системой координат UTM
Представление пространственных географических объектов в виде гексагональная сетки окружностей
Поиск географических объектов, расположенных на определенном расстоянии от точки
Привязка географических объектов к полигонам сложной формы на поверхности
Описательные статистический анализ
Анализ категорийных переменных и визуализация результатов
Корреляционный анализ и визуализация результатов
Сегментация с использованием k-Mean кластеризации и elbow метода
Анализ и визуализация кластеров

Читать полностью »

Туториал по Uplift моделированию. Часть 2

2020-02-04 в 12:23, admin, рубрики: causal effect, causal Inference, causal tree, causality, causalml, data mining, data science, net lift, uplift, аплифт, Блог компании МТС, искусственный интеллект, математика, машинное обучение

В первой части мы познакомились с uplift моделированием и узнали, что метод позволяет выбирать оптимальную стратегию коммуникации с клиентом, а также разобрали особенности сбора данных для обучения модели и несколько базовых алгоритмов. Однако эти подходы не позволяли оптимизировать uplift напрямую. Поэтому в этой части разберем более сложные, но не менее интересные подходы.
Читать полностью »

Новости машинного обучения. Выпуск 8

2020-02-03 в 8:53, admin, рубрики: artificial neural network, data science, deep learning, machine learning, бионический протез, будущее здесь, визуализация данных, глубокое обучение, идеи для бизнеса, искусственная нейронная сеть, искусственный интеллект, машинное обучение, Научно-популярное, нейросеть, новости науки и техники, обработка изображений, робототехника, экзоскелет

Предыдущий выпуск

Экзоскелеты; бионические протезы; промышленные роботы; исследование автоматических рекоммендаций Ютуба; создание моделей машинного обучения в браузере с помощью MediaPipe; виртуальная клавиатура для смартфонов; 5G; еще раз о сильном и слабом ИИ.

Читать полностью »

Туториал по uplift моделированию. Часть 1

2020-01-30 в 13:15, admin, рубрики: causal effect, causal Inference, causality, causalml, data mining, data science, net lift, true lift, uplift, uplift modelling, аплифт, Блог компании МТС, интернет-маркетинг, маркетинг, машинное обучение, Повышение конверсии, реклама

Команда Big Data МТС активно извлекает знания из имеющихся данных и решает большое количество задач для бизнеса. Один из типов задач машинного обучения, с которыми мы сталкиваемся – это задачи моделирования uplift. С помощью этого подхода оценивается эффект от коммуникации с клиентами и выбирается группа, которая наиболее подвержена влиянию.

Такой класс задач прост в реализации, но не получил большого распространения в литературе про машинное обучение. Небольшой цикл статей, подготовленный Ириной Елисовой (iraelisova) и Максимом Шевченко (maks-sh), можно рассматривать как руководство к решению таких задач. В рамках него мы познакомимся с uplift моделями, рассмотрим, чем они отличаются от других подходов, и разберем их реализации.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data science» - 17

Применяем Data Science в мирных целях покупки дома

Введение

Создать мощный курс Machine Learning: миссия выполнена

Спам, спам, спам…

Null проблема в Data Science и Machine Learning

Natural Language Processing. Итоги 2019 и тренды на 2020

BERTs, BERTs are everywhere

«Да, они существуют!» Чем занимаются и сколько зарабатывают Data Science-специалисты в Казахстане?

Сертификация по программе IBM Data Science Professional Certificate

Туториал по Uplift моделированию. Часть 2

Новости машинного обучения. Выпуск 8

Туториал по uplift моделированию. Часть 1