Рубрика «машинное обучение» - 163

Что внутри XGBoost, и при чем здесь Go

2018-09-17 в 17:46, admin, рубрики: c++, Go, LightGBM, xgboost, машинное обучение, предсказания

В мире машинного обучения одними из самых популярных типов моделей являются решающее дерево и ансамбли на их основе. Преимуществами деревьев являются: простота интерпретации, нет ограничений на вид исходной зависимости, мягкие требования к размеру выборку. Деревья имеют и крупный недостаток — склонность к переобучению. Поэтому почти всегда деревья объединяют в ансамбли: случайный лес, градиентный бустинг и др. Сложной теоретической и практической задачей является составление деревьев и объединение их в ансамбли.

В данной же статье будут рассмотрены процедура формирования предсказаний по уже обученной модели ансамбля деревьев, особенности реализаций в популярных библиотеках градиентного бустинга XGBoost и LightGBM. А так же читатель познакомится с библиотекой leaves для Go, которая позволяет делать предсказания для ансамблей деревьев, не используя при этом C API оригинальных библиотек.
Читать полностью »

Создаем свой датасет с пришельцами

2018-09-17 в 10:36, admin, рубрики: big data, computer vision, data mining, dataset, deep learning, python, segmentation, машинное обучение, обработка изображений, разметка изображений, фрилансеры

Создаем свой датасет с пришельцами - 1

Сегментацией людей с помощью нейронных сетей уже никого не удивишь. Есть много приложений, таких как Sticky Ai, Teleport Live, Instagram, которые позволяют выполнять такую сложную задачу на мобильном телефоне в реалтайме.

Итак, предположим планета Земля столкнулась с внеземными цивилизациями. И от пришельцев из звездной системы Альфа Центавра поступает запрос на разработку нового продукта. Им очень понравилось приложение Sticky Ai, которое позволяет вырезать людей и делать стикеры, поэтому они хотят портировать приложение на свой межгалактический рынок.

Читать полностью »

Получение морфируемой 3D-модели лица на основе фотографии в произвольном ракурсе

2018-09-17 в 10:13, admin, рубрики: 3d-моделирование, deep learning, Алгоритмы, глубокие сверточные нейронные сети, глубокое обучение, искусственный интеллект, Компьютерное зрение, машинное обучение, морфинг, нейронные сети, распознавание лиц, сверточные нейронные сети

Привет! Представляю вашему вниманию перевод статьи «Learning 3D Face Morphable Model Out of 2D Images».

3DMM

Трёхмерная морфируемая модель лица (3D Morphable Model, далее 3DMM) — это статистическая модель структуры и текстуры лица, которая используются компьютерном зрении, компьютерной графике, при анализе человеческого поведения и в пластической хирургии.

Неповторимость каждой черты лица делает моделирование человеческого лица нетривиальной задачей. 3DMM создётся для получения модели лица в пространстве явных соответствий. Это означает поточечное соответствие между полученной моделью и другими моделями, позволяющими выполнять морфирование. Кроме того, в 3DMM должны быть отражены трансформации низкого уровня, такие как отличия мужского лица от женского, нейтрального выражения лица от улыбки.
Читать полностью »

Детские приложения массово собирают персональные данные и передают их третьим лицам

2018-09-17 в 9:08, admin, рубрики: apple, appstore, big data, CrossOver, Google, Google Play, Блог компании Crossover, датчики устройств, дети, детские игры, игры, информационная безопасность, контекстная реклама, машинное обучение, персональные данные, приватность, приложения, смартфоны

Детские приложения массово собирают персональные данные и передают их третьим лицам - 1

К детской продукции всегда выдвигались особые требования. Тут и безопасность, надежность, простота, возможность удаленного управления, если мы говорим о детских устройствах и сервисах, и много чего еще. Функция «родительских контроль» почти так же стара, как и весь цифровой мир, кроме этого вопрос защиты персональных данных детей стоит остро уже достаточно давно.

Но даже если ваш ребенок обладает достаточной технической грамотностью и знаком с правилами поведения в сети (не разглашать свои персональные данные, реальное место жительства, график, маршруты и так далее по вполне понятным нам всем причинам), от утечки этой информации он не защищен. В последнем исследовании говорится, что огромная масса детских приложений с пометкой «до 13 лет» следят за своими юными пользователями так же, как за нами, взрослыми, следят приложения Facebook или Google.

Простенькие игры, цель которых — развитие или развлечение чада, вполне себе собирают всевозможную информацию от устройства и датчиков, в том числе и данные геолокации и акселерометра. Кстати говоря, за детьми в нарушение закона следят и крупные технологические компании и социальные сети. И это серьезная проблема, особенно, если брать в расчет современное машинное обучение и нейросети.
Читать полностью »

Rule-based neural networks

2018-09-15 в 15:22, admin, рубрики: rule-based neural networks, логические нейросети, машинное обучение

(В данной статье не объясняются базовые понятия теории нейронных сетей. Для тех, кто не знаком с ними, перед прочтением советую ознакомиться для исключения дальнейших заблуждений.)

Суть этого текста, заключается в ознакомлении с некоторыми видами нейронных сетей, которые на русскоязычных просторах освещаются, не так часто, если не сказать что и вовсе, крайне редко.
Читать полностью »

Диаризация на основе модели GMM-UBM и алгоритма MAP adaptation

2018-09-14 в 6:34, admin, рубрики: data science, gmm-ubm, map adaptation, python, speaker diarization, звук, машинное обучение

Привет. Я бы хотел рассказать об одном из подходов в решении задачи диаризации дикторов и показать, как этот метод можно реализовать на языке python. Чтобы не отпугивать читателя, я не буду приводить сложные математические формулы (отчасти потому что я и сам «не настоящий сварщик»), а постараюсь изложить всё простым языком и рассказать всё так, чтобы понял разработчик, никогда прежде не сталкивавшийся с машинным обучением.
Читать полностью »

Пицца аля-semi-supervised

2018-09-13 в 11:05, admin, рубрики: computer vision, DBrain, deep learning, image processing, kaggle, pizza, python, segmentation, Блог компании Open Data Science, машинное обучение, обработка изображений

В этой статье я бы хотел рассказать про некоторые приемы работы с данными при обучении модели. В частности, как натянуть сегментацию объектов на ббоксы, а также как обучить модель и получить разметку датасета, разметив всего несколько сэмплов.
Пицца аля-semi-supervised - 1
Читать полностью »

Глубокое обучение для определения стиля и жанра картин

2018-09-12 в 7:02, admin, рубрики: computer vision, deep learning, Блог компании Singularis, искусство, машинное обучение, обработка изображений

Привет!

Сегодня я хочу рассказать о второй части проекта сервиса для идентификации и классификации произведений искусства. Напомню, что мы решали две основные задачи:

поиск картины в базе данных по фотографии, сделанной мобильным телефоном;
определение стиля и жанра картины, которой нет в базе данных.

Сегодня мы рассмотрим применение сверточной нейронной сети для классификации изображений по стилю и жанру.

Глубокое обучение для определения стиля и жанра картин - 1

Поможем Даше разобраться в современном искусстве?

Читать полностью »

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз

2018-09-11 в 12:30, admin, рубрики: Алгоритмы, алгоритмы поиска, анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, обработка текста, Семантика

Наступил новый учебный год. Студенты получили расписание занятий и стали задумываться о ~~пьянках-гулянках-девушках-гитарах~~ будущей сессии. Написание курсовых, дипломов, статей и диссертаций не за горами. А значит, грядут и анализ текстов на наличие заимствований, и отчеты о проверке, и прочая головная студенческая и администраторская боль. И у сотен тысяч людей (без шуток – мы посчитали!) уже возникает закономерный вопрос – как же обмануть «Антиплагиат». В нашем случае практически все способы обмана так или иначе связаны с искажениями текста. Мы уже научили «Антиплагиат» обнаруживать текст, «искаженный » с помощью перевода с английского на русский ( мы уже писали об этом в первой статье нашего корпоративного блога). Сегодня речь пойдет о том, как обнаруживать самый эффективный, хотя и трудоемкий способ искажения текста – парафраз.

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз - 1

Читать полностью »

Выявление содержательных профилей в VK

2018-09-10 в 15:50, admin, рубрики: анализ данных, боты для социальных сетей, веб-аналитика, классификация, логистическая регрессия, машинное обучение, открытые данные, Социальные сети и сообщества

Ботов отличать от людей и правда сложновато. Я и сам толком не могу это сделать. Но зато я придумал неплохой ~~велоси...~~ метод, как отличать в VK «интересных людей» от «не очень интересных». В плане сетевого общения, естественно, а не по жизни.

Выявление содержательных профилей в VK - 1

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «машинное обучение» - 163

Что внутри XGBoost, и при чем здесь Go

Создаем свой датасет с пришельцами

Получение морфируемой 3D-модели лица на основе фотографии в произвольном ракурсе

Детские приложения массово собирают персональные данные и передают их третьим лицам

Rule-based neural networks

Диаризация на основе модели GMM-UBM и алгоритма MAP adaptation

Пицца аля-semi-supervised

Глубокое обучение для определения стиля и жанра картин

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз

Выявление содержательных профилей в VK