Рубрика «машинное обучение» - 140

В предыдущей статье мы говорили о кодеке Opus, который работает на очень низких битрейтах. Но другой кодек стремится достичь ещё более низких битрейтов — это Codec 2.

Codec 2 предназначен для кодирования только речи. И хотя битрейт впечатляет, звук не такой качественный, как в случае Opus, что можно услышать в аудиопримерах. Тем не менее, в сочетании с нейросетью (WaveNet) кодек демонстрирует впечатляющие результаты.

Codec 2 + нейросеть =целый подкаст на одной дискете - 1
Слои нейронной сети WaveNet
Читать полностью »

Совсем недавно мы искали дата-сайентиста в команду (и нашли — привет, nik_son и Арсений!). Пока общались с кандидатами, поняли, что многие хотят сменить место работы, потому что делают что-то «в стол».

Например, берутся за сложное прогнозирование, которое предложил начальник, но проект останавливается — потому что в компании нет понимания, что и как включить в продакшен, как получить прибыль, как «отбить» потраченные на новую модель ресурсы.

Как докатить ML в прод: шесть граблей, на которые мы наступили - 1

У HeadHunter нет больших вычислительных мощностей, как у «Яндекса» или Google. Мы понимаем, как нелегко катить в продакшен сложный ML. Поэтому многие компании останавливаются на том, что катят в прод простейшие линейные модели.

В процессе очередного внедрения ML в рекомендательную систему и в поиск по вакансиям мы столкнулись с некоторым количеством классических «граблей». Обратите на них внимание, если собираетесь внедрять ML у себя: возможно, этот список поможет по ним не ходить и найти уже свои, персональные грабли.
Читать полностью »

Второй блин: анонс SmartData 2018 - 1

Чем первое проведение конференции отличается от второго? При подготовке первой нет ни возможности «сделать как раньше», ни зрительского фидбэка, и организаторам приходится делать смелые предположения. Это не значит, что получится плохо. Но это значит, что после первого раза непременно появятся новые соображения, которые помогут во второй.

В прошлом году мы впервые провели конференцию SmartData, а теперь пришло время «второго раза»: анонсируем SmartData 2018, которая состоится 15 октября в Санкт-Петербурге.

Чего ждать от конференции? Кому стоит на неё идти? Что изменилось по сравнению с прошлым годом? Рассказываем обо всём под катом.
Читать полностью »

В некоторых жизненных ситуациях нужно действовать очень быстро. Иногда это условие невыполнимо: например, просто невозможно без огромного везения за очень короткое время найти человека с редкой группой крови, так еще и готового ей поделиться. Ребята создали продукт под названием DonorUA, который действительно помогает спасать жизни при помощи чат-бота. Подробнее под катом.

Продукт на .NET, помогающий спасать жизни - 1Читать полностью »

Работники Amazon, Google, Microsoft взбунтовались. Их возмутил факт сотрудничества с Петагоном, антииммиграционными службами и органами правопорядка, поэтому руководству техногигантов пришлось пойти на поводу у этических соображений. Это лишило компании жирных государственных контрактов.

Хабр — не место для политики, но место для обсуждения этичности тех или иных вопросов. Давайте разбираться, что во взглядах работодателей не понравилось сотрудником корпораций.

Сотрудники Amazon, Google и Microsoft протестуют против сотрудничества с военными и полицией - 1
Читать полностью »

23 июня 2018 года состоялся финал ML-Блица, конкурса по машинному обучению, организованного Яндексом. Ранее мы анонсировали его на Хабре и рассказывали, какие примерно задачи могут встретиться на реальном соревновании.

Теперь мы хотим поделиться с вами разборами задач одного из квалификационных раундов — самого первого. Двое участников сумели решить все задачи этого соревнования; 57 участников решили хотя бы одну задачу, а 110 совершили хотя бы по одной попытке сдать задание.

Хотя автор этих строк принимал участие в составлении задач конкурса, именно в первой квалификации его задачи не принимали участие. Так что я пишу этот разбор с позиции участника конкурса, который впервые увидел условия и хотел как можно быстрее получить как можно больше баллов.

Самым популярным языком программирования среди участников соревнования ожидаемо оказался python, поэтому я также использовал именно этот язык во всех случаях, когда требовалось написать код.

Все мои решения доступны на GitHub

image

Читать полностью »

Как с помощью дата-майнинга мы уменьшали брак на металлообрабатывающем заводе — на установке охлаждения - 1
МКС-5000, часть линии

Одна огромная российская производственная компания куёт сталь, которой знаменита наша страна. Эта сталь идёт на строительство судов и на менее романтичные вещи в промышленности вроде труб. У них установлена современная линия МКС-5000, комплекс для производства крупнолистового проката.

Линия управляется вендорской коробкой типа «чёрный ящик», которая знает усреднённые значения параметров для в среднем оптимального получения результата. Но все заготовки разные, и некоторые результаты выходят с линии бракованными. Их пытаются править с помощью мужика с болгаркой или отправляют назад в переплавку в зависимости от типа брака.

Самая больная точка — устройство контролируемого охлаждения (один из 14 этапов линии). Мы пришли туда со своей математикой для двух задач:

  1. Поиска заготовок, которые надо снимать с линии, — с ними при охлаждении в любом случае получится брак.
  2. Подбора индивидуальных параметров охлаждения под каждую заготовку.

Результат — из тех 5% брака мы умеем «спасать» 42% заготовок и знаем про заведомый брак (до окончания обработки на линии) на ещё примерно 35% заготовок. Это 10 миллионов рублей на партию.
Читать полностью »

Как мы в хакатоне AI.HACK победили, или Когда нужно выключить искусственный интеллект и включить естественный - 1

В марте команда наших разработчиков с гордым названием «Руки-Ауки» двое суток неусыпно сражалась на цифровых полях хакатона AI.HACK. Всего было предложено пять задач от разных компаний. Мы сосредоточились на задаче «Газпромнефти»: прогнозирование спроса на топливо со стороны В2В-клиентов. Нужно было по обезличенным данным — регион приобретения топлива, номер заправки, вид топлива, цена, дата и ID-клиента — научиться прогнозировать, сколько в будущем купит тот или иной клиент. Забегая вперёд — наша команда решила эту задачу с наивысшей точностью. Клиенты были разбиты на три сегмента: крупные, средние и мелкие. И помимо основной задачи мы также построили прогноз суммарного потребления по каждому из сегментов.
Читать полностью »

image

Что мешает успешно совместить математику и бизнес?

Этот текст — первая из серии статей о том, как корректно встроить инструменты big data с выгодой для бизнеса.

Маленький спойлер: все получится, если помнить о самом бизнесе.

Еще 5 лет назад крупные компании хотели внедрить у себя новомодную “бигдату”. Но настоящих экспериментаторов было мало. Исключениями стали те, кто точно обладал массой данных: телеком, банковский сектор, интернет-компании. А в 2018 году за экспертизой в больших данных бизнесы приходят сами, причем из самых неожиданных отраслей: металлургия, страхование, авиаиндустрия.Читать полностью »

Новый чемпионат ML Boot Camp VI. Прогноз отклика аудитории на интернет-опрос - 1

Сегодня, 25 июня, стартует ML Boot Camp VI с задачей «Прогноз отклика аудитории на интернет-опрос» (если вы вдруг впервые слышите, что такое ML Boot Camp, заходите под спойлер).
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js