Рубрика «data mining» - 4

Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)

2022-01-06 в 17:51, admin, рубрики: data mining, data science, nlp, nlp (natural language processing), sentiment analysis, машинное обучение, Научно-популярное

Читать полностью »

Классификация признаков транзакций в моделях поведенческого скоринга

2022-01-01 в 12:59, admin, рубрики: Behavioral, data mining, scoring, Исследования и прогнозы в IT, машинное обучение, финансы в IT

В настоящей статье изложены выводу, к которым я пришел по результатам исследования датасета, представленного АО «Альфа Банк» в рамках хакатона AlfaBattle 2.0 в декабре 2020 года.

Организатором Хакатона представлены данные о транзакциях по банковским картам в отношении 1.5 млн клиентов, предоставивших впоследствии заявку на получение кредитной карты. Задача Хакатона – построение модели бинарной классификации обеспечивающей предсказание дефолта по кредитной карте на основании транзакционных данных.

Условия задачи представлены здесь

Читать полностью »

Моя маленькая помощь малым языкам

2021-10-03 в 13:28, admin, рубрики: data mining, natural language processing, python, изучение языков, Компьютерная лингвистика, лингвистика, машинное обучение, машинный перевод, переводчики, язык

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Что же не так с любыми электронными голосованиями?

2021-09-25 в 15:17, admin, рубрики: data mining, выборы, выборы в госдуму, дэг, криптография, открытые данные, Статистика в IT, Тестирование IT-систем, электронное голосование

Данная публикация написана по мотивам поста «Что же не так с ДЭГ в Москве?». Его автор описывает, как можно выгрузить и расшифровать данные по электронному голосованию, а также приводит целый список замечаний к его текущей системе.

Читать полностью »

Как спарсить любой сайт?

2021-09-22 в 10:40, admin, рубрики: BeautifulSoup4, big data, data mining, headlessbrowser, javascript, linkedin, Puppeteer, scrapy, selenium, selenoid, открытые данные, парсинг, Тестирование веб-сервисов

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность, масштабируемость.

TL;DR

Читать полностью »

Как определить самый авторитетный фильм всех времен и народов

2021-09-17 в 10:28, admin, рубрики: data mining, python, анализ данных, графы, исследование, кино, парсинг

Какое произведение киноискусства оставило самый большой отпечаток в современной поп культуре? Предлагаю подумать над этим вопросом некоторое время. Может быть это Апокалипсис сегодня? Или Крестный отец? А вдруг главный фильм всех времен и народов это шедевр отечественного кинематографа - фильм Викинг?

К счастью, это можно посчитать.

Отсылки в современных произведениях популярного искусства - забавная вещь. Люди их любят. Возьмем популярный мультсериал Читать полностью »

Как быть билингвом в Data Science

2021-01-09 в 16:19, admin, рубрики: big data, data engineering, data mining, data science, python, skillfactory, Блог компании SkillFactory

В этой статье я хочу продемонстрировать R Markdown — удобную надстройку для программирования вашего проекта как на R, так и на Python, позволяющую программировать некоторые элементы вашего проекта на двух языках и управлять объектами, созданными на одном языке, с помощью другого языка. Это может быть полезно потому, что:

Позволяет писать код на привычном языке, но при этом использовать функции, существующие только в другом языке.
Позволяет напрямую сотрудничать с коллегой, который программирует на другом языке.
Даёт возможность работать с двумя языками и со временем научиться свободно владеть ими.

Читать полностью »

Выбираем self-hosted замену IFTTT

2021-01-08 в 9:30, admin, рубрики: Beehive, data mining, huginn, if this then that, IFTTT, node-red, open source, облачные сервисы, Софт

Выбираем self-hosted замену IFTTT - 1

If This Then That — сервис для автоматизации задач и создания пайплайнов из действий в разных сервисах. Это самый известный и функциональный продукт на рынке, но популярность ему навредила: полноценное создание апплетов теперь возможно только с платной подпиской, а на реддите периодически появляются жалобы на нестабильную работу сервиса. Как и в случае с любым полезным но платным продуктом, ищущий альтернативы обрящет их в опен-сорсном комьюнити. Мы сравним три self-hosted инструмента: Huginn, Beehive и Node-RED, попробуем их в действии и выберем лучший по функционалу и удобству использования.Читать полностью »

ИИ итоги уходящего 2020-го года в мире машинного обучения

2020-12-31 в 20:25, admin, рубрики: AI, data mining, data science, deep learning, machine learning, machinelearning, neural, neural networks, python, Алгоритмы, машинное обучение, нейросети, нейросеть, Программирование

Подведем основные итоги уходящего года. Рассмотрим самые громкие открытия в мире компьютерного зрения, обработки естественного языка, генерации изображений и видео, а также крупный прорыв в области биологии. Коротко о самом главном за год!

Если тебе интересно машинное обучение, то приглашаю в «Мишин Лернинг»Читать полностью »

Как мы персонализировали POI

2020-12-18 в 4:45, admin, рубрики: data mining, POI, Алгоритмы, Блог компании 2ГИС, карта, математика, персонализация

Мы в 2ГИС хотим облегчить пользовательскую поисковую рутину и потому стремимся предугадывать запросы пользователей. Под катом расскажем про то, как мы придумали алгоритм для персонализации интересных мест и что из этого вышло.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data mining» - 4

Сравнительный анализ тональности комментариев в YouTube (осторожно, ненормативная лексика)

Классификация признаков транзакций в моделях поведенческого скоринга

Моя маленькая помощь малым языкам

I. Извлекаем параллельный корпус

Что же не так с любыми электронными голосованиями?

Как спарсить любой сайт?

TL;DR

Как определить самый авторитетный фильм всех времен и народов

Как быть билингвом в Data Science

Выбираем self-hosted замену IFTTT

ИИ итоги уходящего 2020-го года в мире машинного обучения

Как мы персонализировали POI