Рубрика «data mining» - 4
Классификация признаков транзакций в моделях поведенческого скоринга
2022-01-01 в 12:59, admin, рубрики: Behavioral, data mining, scoring, Исследования и прогнозы в IT, машинное обучение, финансы в ITВ настоящей статье изложены выводу, к которым я пришел по результатам исследования датасета, представленного АО «Альфа Банк» в рамках хакатона AlfaBattle 2.0 в декабре 2020 года.
Организатором Хакатона представлены данные о транзакциях по банковским картам в отношении 1.5 млн клиентов, предоставивших впоследствии заявку на получение кредитной карты. Задача Хакатона – построение модели бинарной классификации обеспечивающей предсказание дефолта по кредитной карте на основании транзакционных данных.
Условия задачи представлены здесь
Моя маленькая помощь малым языкам
2021-10-03 в 13:28, admin, рубрики: data mining, natural language processing, python, изучение языков, Компьютерная лингвистика, лингвистика, машинное обучение, машинный перевод, переводчики, язык
Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...
На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.
Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.
Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.
Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.
I. Извлекаем параллельный корпус
Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.
Что же не так с любыми электронными голосованиями?
2021-09-25 в 15:17, admin, рубрики: data mining, выборы, выборы в госдуму, дэг, криптография, открытые данные, Статистика в IT, Тестирование IT-систем, электронное голосование
Данная публикация написана по мотивам поста «Что же не так с ДЭГ в Москве?». Его автор описывает, как можно выгрузить и расшифровать данные по электронному голосованию, а также приводит целый список замечаний к его текущей системе.
Как спарсить любой сайт?
2021-09-22 в 10:40, admin, рубрики: BeautifulSoup4, big data, data mining, headlessbrowser, javascript, linkedin, Puppeteer, scrapy, selenium, selenoid, открытые данные, парсинг, Тестирование веб-сервисов
Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.
Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность, масштабируемость.
TL;DR
Как определить самый авторитетный фильм всех времен и народов
2021-09-17 в 10:28, admin, рубрики: data mining, python, анализ данных, графы, исследование, кино, парсингКакое произведение киноискусства оставило самый большой отпечаток в современной поп культуре? Предлагаю подумать над этим вопросом некоторое время. Может быть это Апокалипсис сегодня? Или Крестный отец? А вдруг главный фильм всех времен и народов это шедевр отечественного кинематографа - фильм Викинг?
К счастью, это можно посчитать.
Отсылки в современных произведениях популярного искусства - забавная вещь. Люди их любят. Возьмем популярный мультсериал Читать полностью »
Как быть билингвом в Data Science
2021-01-09 в 16:19, admin, рубрики: big data, data engineering, data mining, data science, python, skillfactory, Блог компании SkillFactoryВ этой статье я хочу продемонстрировать R Markdown — удобную надстройку для программирования вашего проекта как на R, так и на Python, позволяющую программировать некоторые элементы вашего проекта на двух языках и управлять объектами, созданными на одном языке, с помощью другого языка. Это может быть полезно потому, что:
- Позволяет писать код на привычном языке, но при этом использовать функции, существующие только в другом языке.
- Позволяет напрямую сотрудничать с коллегой, который программирует на другом языке.
- Даёт возможность работать с двумя языками и со временем научиться свободно владеть ими.

Выбираем self-hosted замену IFTTT
2021-01-08 в 9:30, admin, рубрики: Beehive, data mining, huginn, if this then that, IFTTT, node-red, open source, облачные сервисы, Софт
If This Then That — сервис для автоматизации задач и создания пайплайнов из действий в разных сервисах. Это самый известный и функциональный продукт на рынке, но популярность ему навредила: полноценное создание апплетов теперь возможно только с платной подпиской, а на реддите периодически появляются жалобы на нестабильную работу сервиса. Как и в случае с любым полезным но платным продуктом, ищущий альтернативы обрящет их в опен-сорсном комьюнити. Мы сравним три self-hosted инструмента: Huginn, Beehive и Node-RED, попробуем их в действии и выберем лучший по функционалу и удобству использования.Читать полностью »
ИИ итоги уходящего 2020-го года в мире машинного обучения
2020-12-31 в 20:25, admin, рубрики: AI, data mining, data science, deep learning, machine learning, machinelearning, neural, neural networks, python, Алгоритмы, машинное обучение, нейросети, нейросеть, Программирование
Подведем основные итоги уходящего года. Рассмотрим самые громкие открытия в мире компьютерного зрения, обработки естественного языка, генерации изображений и видео, а также крупный прорыв в области биологии. Коротко о самом главном за год!
Если тебе интересно машинное обучение, то приглашаю в «Мишин Лернинг»Читать полностью »
Как мы персонализировали POI
2020-12-18 в 4:45, admin, рубрики: data mining, POI, Алгоритмы, Блог компании 2ГИС, карта, математика, персонализацияМы в 2ГИС хотим облегчить пользовательскую поисковую рутину и потому стремимся предугадывать запросы пользователей. Под катом расскажем про то, как мы придумали алгоритм для персонализации интересных мест и что из этого вышло.


