Рубрика «NLTK»

Где была Алиса Селезнева. Искал ее адреса с помощью Python

2026-03-30 в 7:17, admin, рубрики: NLTK, python, аналитика, визуализация данных, данные, научная фантастика, Научно-популярное, проза, Читальный зал

Кир Булычев начал писать книги про Алису Селезневу в 1965 году. Со временем Алиса стала "вечным героем", пережившим и автора и многих своих поклонников. Часть приключений девочки, с которой ничего не случится, происходит на Земле и даже в прошлом. Но автор Алисы все же писатель-фантаст и большинство поклонников воспринимают истории о ней, как космические приключения.

Мне стало интересно с помощью Python изучить книги про Алису, посмотреть с какими планетами и перемещениями по вселенной связаны события ее жизни. И установить, где в космосе побывала сама Алиса.

Читать полностью »

Сравнил тоже! Нашел на Python разницу между «Бородино» и «Ледовым побоищем»

2025-12-22 в 18:54, admin, рубрики: huggingface, nlp, NLTK, python, scikit-learn, torch, Transformers, литература, нейросети, поэзия

"Бородино" Лермонтова и "Ледовое побоище" Симонова две классические военно-патриотические поэмы, были созданы по мотивам крупных военных событий, но по-разному описывают ратный подвиг русского воина. Мне стало интересно сравнить два произведения объективно, использовать для анализа предобученные эмбеддинги и визуализировать результат.

Для работы я использовал библиотеку transformers для загрузки и применения предобученной модели LaBSE. Библиотека torch понадобилась мне для работы с нейросетевой моделью. scikit-learn я использовал для снижения размерности с помощью PCA и t-SNE.

Читать полностью »

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

2025-12-04 в 6:33, admin, рубрики: nlp, NLTK, pandas, python, stanford, tokenizer, говнокод, поэзия, проза, чтение

Что меня носит по свету транзитом?

Тело намаялось, сердце не сыто.

Бегство от быта — смешная защита,

всё ненасытней растут аппетиты.

Любим сквозь сито, поем через сито.

Сыты по горло — сердце не сыто.

Небо не сыто. Окошки открою —

ты прилетаешь по воздуху кролем.

Читать полностью »

Как Python раскрыл поэтический гений Маршака

2025-11-12 в 7:16, admin, рубрики: NLTK, nltk python, python, tokenizer

Маршак почти идеально сохранил ритм, смысл и структуру оригинала. Вот как я убедился в этом с помощью Python.

Я цифровой гуманитарий. Мне интересно пересечение литературы и математики. Я не просто читаю стихи, я анализирую их с помощью Python, чтобы найти то, что скрыто за словами: ритм, семантику, эмоции.

В этом посте я расскажу, как провёл лингвистико-поэтический анализ перевода 101-го сонета Шекспира Самуилом Маршаком, используя простые инструменты:

Подсчёт слогов и анализ метрики
Сравнение семантики строк
Визуализация результатов

Читать полностью »

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

2025-02-13 в 5:16, admin, рубрики: deep learning, ml, NLTK, pymorphy, python3

Предварительная обработка текстовых данных: ключевые этапы и методы

Текстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

Читать полностью »

NLP: когда машины начинают понимать нас (Часть 2)

2024-12-08 в 6:30, admin, рубрики: machine learning, natural language processing, nlp, NLTK, python, spacy, искусственный интеллект, машинное обучение, обработка естественного языка, пайтон

1. Введение

В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной реализации проектов. Одним из наиболее популярных языков для решения задач в этой области является Python. Его простота, читаемость и поддержка мощных библиотек делают его идеальным выбором для разработчиков.

Читать полностью »

Telegram-бот для анализа текста | выделение тематических групп

2024-11-03 в 11:18, admin, рубрики: aiogram, gensim, gpt, LDA, lemmings, mystem, NLTK, postgresql, python, telegrambot

Предыстория

Буквально месяц назад, мы с моим коллегой участвовали в HAKATON. Наша команда взялась за интересную задачу от компании МТС: на основе тысяч опросов, найти усредненный синоним к определенной категории ответов и визуализировать это в виде диаграммы, либо облака слов.

После выполнения задачи и защиты проекта мы задумались:

"А что если данную программу попробовать связать с тг ботом?"

Как раз после этого, мы решили это реализовать.

Ссылка на данный проект в github

https://github.com/onevay/Tg_Bot_Topic_Analyze/tree/main

Этапы работы

Выбор стека
Читать полностью »

Анализ эмоциональной окраски отзывов с Кинопоиска

2019-09-11 в 19:21, admin, рубрики: natural language processing, nlp, NLTK, python, машинное обучение, обработка естественного языка, сентиментный анализ

Вступление

Обработка естественного языка (NLP) является популярной и важной областью машинного обучения. В данном хабре я опишу свой первый проект, связанный с анализом эмоциональной окраски кино отзывов, написанный на Python. Задача сентиментного анализа является довольно распространенной среди тех, кто желает освоить базовые концепции NLP, и может стать аналогом 'Hello world' в этой области.

В этой статье мы пройдем все основные этапы процесса Data Science: от создания собственного датасета, его обработки и извлечения признаков с помощью библиотеки NLTK и наконец обучения и настройки модели с помощью scikit-learn. Сама задача состоит в классификации отзывов на три класса: негативные, нейтральные и позитивные.
Читать полностью »

Мульти-классификация Google-запросов с использованием нейросети на Python

2018-03-11 в 13:45, admin, рубрики: keras, NLTK, numpy, pandas, python, ИИ, классификация, математика, машинное обучение, Семантика

Прошло уже достаточно времени с момента публикации моей первой статьи на тему обработки естественного языка. Я продолжал активно исследовать данную тему, каждый день открывая для себя что-то новое.
Сегодня я бы хотел поговорить об одном из способов классификации поисковых запросов, по отдельным категориям с помощью нейронной сети на Keras. Предметной областью запросов была выбрана сфера автомобилей.
За основу был взят датасет размером ~32000 поисковых запросов, размеченных по 14ти классам: Автоистория, Автострахование, ВУ (водительское удостоверение), Жалобы, Запись в ГИБДД, Запись в МАДИ, Запись на медкомиссию, Нарушения и штрафы, Обращения в МАДИ и АМПП, ПТС, Регистрация, Статус регистрации, Такси, Эвакуация.Читать полностью »

Отчет о старте Atos IT Challenge

2017-12-08 в 15:03, admin, рубрики: data mining, data-visualisation, gensim, matplotlib, NLTK, python, визуализация данных, машинное обучение

Есть ли у вас та штука, что называется pet project или side project? Тот самый проект, который бы вы делали в свое удовольствие и для себя, для саморазвития или расширения портфолио. Лично у меня долгое время не было ничего, что можно было бы показать. Однако, в рамках стартовавшего этой осенью конкурса Atos IT Challenge 2018, у меня как раз появилась возможность начать такой проект.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «NLTK»

Где была Алиса Селезнева. Искал ее адреса с помощью Python

Сравнил тоже! Нашел на Python разницу между «Бородино» и «Ледовым побоищем»

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

Как Python раскрыл поэтический гений Маршака

Маршак почти идеально сохранил ритм, смысл и структуру оригинала. Вот как я убедился в этом с помощью Python.

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Предварительная обработка текстовых данных: ключевые этапы и методы

NLP: когда машины начинают понимать нас (Часть 2)

1. Введение

Telegram-бот для анализа текста | выделение тематических групп

Предыстория

Ссылка на данный проект в github

Этапы работы

Анализ эмоциональной окраски отзывов с Кинопоиска

Вступление

Мульти-классификация Google-запросов с использованием нейросети на Python

Отчет о старте Atos IT Challenge