Сравнение российской рэп сцены используя R и техники Text Mining. Эпизод 2

в 18:23, , рубрики: data mining, genius, music, natural language processing, R, rap, text mining

R. Text Mining. Rap. Episode 2

Данная статья является продолжением материала «Сравнение российской рэп сцены используя R и техники Text Mining. Noize Mc and Kasta vs Pharaoh and Morgenshtern» и сейчас я постараюсь детально проанализировать творчество Нойз Мс и Оксимирона. Однако, хочу отметить, что это не будет сравнение между ними. Цель этой статьи не показать кто из них круче, а передать глубину и разнообразие их музыки, которой мы имеем возможность наслаждаться в реальном времени. Нам очень повезло, что мы можем следить за их успехами и ходить на их концерты. В этом материале не будет сопоставления как в первой части, не будет такого сильного контраста.

В этот раз анализ также делался при помощи R, Python и API Genius.com Подробнее можно прочитать в первой части, так как не хочу повторяться.

Те, кто хоть немного знаком с творчеством Нойз Мс и Оксимирона, согласятся, что наверняка, слова, используемые данными артистами будут очень сильно отличаться из-за различной тематики песен. Например, многие из песен выпускника Оксфорда и обладателя диплома по специальности «средневековая английская литература» Оксимирона имеют множество отсылок к религии и истории. Например, трек с названием «Башня из слоновой кости». Немногие знают, что это метафора впервые была использована в библейской Песне «песней Соломона»: «Шея твоя — как столп из слоновой кости» и иносказательно означает область высоких устремлений, далеких от суетного мира и его забот. Поэтому неудивительно, что его тексты многим кажутся сложными для восприятия и понимания, да так, что за помощью в расшифровке обращаются к Анатолию Вассерману.

С другой стороны, Нойз Мс нацеливает свое творчество на более широкую аудиторию, поэтому язык его музыки понятен и близок очень большому количеству людей. Также многие текста Ивана (настоящее имя Нойз Мс) написаны «здесь и сейчас» и повествуют об актуальных на момент написания песен событиях. Например, трек «Mercedes S-666» написан по следам ДТП, которое произошло на Ленинском проспекте в 2010 году, когда участниками дорожно-транспортного происшествия стали вице-президент «Лукойл» Анатолий Барков, и две женщины, Ольга Александрина и Вера Седельникова, которые погибли в том ДТП. ГИБДД Москвы заявляет, что виноваты Александрина и Седельникова. Очевидцы утверждают, что дело вовсе не в этом.

Для начала, по аналогии с предыдущей статьей, я подсчитал общее количество слов у Нойз Мс — 56 473 (157 песен) и у Оксимирона — 16 540 (39 песен). У Оксимирона были взяты для анализа 2 его официальных альбома + Микстейп номер 2, первый решил исключить, так как, практически во всех произведениях, Оксимирон исполняет только один куплет.

Вот так выглядит количество уникальных слов после удаления стоп-слов.

image

Как видно, Нойз Мс и Оксимирон используют только 2209 общих слов в своих текстах. Более 50% словарного запаса у каждого из артистов уникальны, что несомненно говорит о различии их авторских стилей. Рискну предположить, что у Оксимирона количество уникальных слов было бы еще выше, если бы количество альбомов и треков хоть немного приближалось к Нойзу. Для сравнения, Лев Николаевич Толстой в своём произведении «Анна Каренина» имеет 12 752 уникальных слова из 253 311.

Чтобы просто и наглядно можно было увидеть самые популярные слова у Нойз Мс и Оксимирона я собрал их в облака слов.

image

А также общие для них слова.

image

Дальше у меня возникло несколько логичных вопросов. Какое слово считается более популярным и запоминающимся у того или иного артиста? Какие слова, сильнее характеризуют его творчество? Те, которые он чаще произнёс за одну песню, но в меньшем их количестве, либо те, которое он упоминал, предположим, по разу, но в большем количестве треков.

Очень сложно сделать однозначный вывод. Ведь, исходя из первой статьи, слово «тырить» являлось наиболее популярным у Касты, но те, кто знаком с их творчеством, сразу обозначили, что трудно назвать это слово одним из определяющих для данного бэнда, так как оно было произнесено практически все разы в одном треке «Тырим». Следовательно, кто-то может никогда не включить трек с самым часто упоминавшемся словом, а кто-то наоборот, будет знать и ассоциировать артиста исключительно с этой песней. К примеру, для меня Каста всегда будет ассоциироваться со словами песни «Вокруг Шум» («Всё ништяк не кипишуй»).

Если же мы берем слово, которое употреблялось в большем количестве треков, то вероятность того, что это слово услышат и свяжут с творчеством определенного артиста намного выше.

Как я уже говорил, оба из подходов имеют право на существование и имеют сильные и слабые стороны, поэтому, чтобы предоставить читателям полную картину я проанализировал тексты Нойза Мс и Оксимирона двумя способами.

Вот так выглядит сопоставление чаще всего используемых слов у Нойз Мс и у Оксимирона. Первое значение — самые популярные слова у артистов, второе — слова, которые упоминаются в большем количестве песен. Без стоп слов.

image

image

Если внимательно изучить данные таблиц, то становится понятным, что большинство слов являются общеупотребительными и не влияют на стилистику текста. Однако есть слова, которые выделяются на общем фоне, и они то и создают уникальность авторского стиля.

Чтобы понять, насколько тексты Нойза Мс и Оксимирона отличаются от остальных произведений и текстов написанных на русском языке, я сравнил данные по самым частоупотребимым словам (до удаления стоп слов) с такой же статистикой взятой из национального корпуса русского языка. В этой информационно-справочной системе, основанной на собрании русских текстов в электронной форме, содержится более 50 000 документов. Для составления рейтинга использовалось 192 689 044 словоформы.

image

Ожидаемо, что самыми популярными словами оказались предлоги, союзы, частицы, местоимения и тд. У Нойз Мс и Оксимирона в сравнении с десятками тысяч других произведений даже процентное соотношение использования этих слов оказалось практически одинаковым.

Для того, чтобы точнее проанализировать схожестьразличие текстов, мало рассматривать только отдельные слова и частоту их использования, важно учитывать также какие связки составляют данные слова, так называемые биграммы, 3-раммы и тд. Ведь используя ту же лексику, можно составить разные по смыслу предложения и словосочетания. Проанализировав, какие связки составляют те или иные слова, можно делать более уверенный вывод о схожести или различии.

Так выглядят самые популярные биграммы у Нойза и у Оксимирона. Я снова сравнил их с информацией из корпуса русского языка.

image

И снова, как и в случае с обычным сравнением словоформ, связки слов у артистов и корпуса русского языка очень схожи, однако есть выделяющиеся элементы, которые и отличают тематику и стилистику артистов.

Очень важным, спорным и противоречивым моментом для меня стало определение широты и разнообразия словарного запаса авторов. Как это сделать не обращаясь к словарям за толкованием значения слов и определения их тематики? Определяет ли разносторонность творчества общее количество слов в произведениях? Или же ключевым является количество уникальных слов? В первом случае, можно просто использовать одни и те же слова во всех песнях, и брать только количеством. Во втором, многие из уникальных слов можно применить в n-количестве песен, а далее снова манипулировать одинаковыми словами. Как видите, оба подхода имеют множество оговорок.

Поэтому, мною было сделано предположение, что о широте тем может сказать частота с которой артисты используют уникальные слова в своих песнях. Чем больше уникальных слов используются в меньшем количестве песен, тем увереннее можно говорить о том, что темы разнятся. Либо исполнитель мастер синонимов, и тогда темы одинаковы, но слова разные, что также, несомненно, хорошо, ведь показывает широту владения русским языком.
Ниже представлена таблица в которой указано, какое количество слов было использовано в каком количестве песен. Например, слово «шпана» было использовано только в 1 песне, но, возможно, несколько раз. И чем больше слов было использовано только в одном произведении — тем выше уникальность. Для удобства данная мера была названа мною — «Индекс Уникальности Слов». Чем выше значение, тем текста уникальнее и разнообразнее.

Для наглядности понимания приведу пример из таблицы: Нойз Мс использовал 5 451 уникальное слово всего лишь в одном треке (возможно несколько раз), 1467 уникальных слов были использованы им в двух произведениях и тд. 12 уникальных слов он использовал более чем в 40 треках.

image

Как видно, процентное соотношение уникальности в группах примерно одинаково у двух артистов. Чуть более 60% у Нойз Мс и целых 75% уникальных слов у Оксимирона были использованы лишь в одном треке.

Эти показатели было бы интересно сравнить например, с поп музыкой, где тематика не настолько широка, ведь изначально рэп музыка, это музыка протеста. Исполнители поднимают тяжелые темы для себя и общества, пытаются в них разобраться, либо поделиться своими рассуждениями. Поп музыка больше призвана развлекать и расслаблять слушателей, она более лёгкая.

Но, хочу подчеркнуть, что я ни в коем случае не сравниваю рэп с поп на данном примере. Я показываю результаты анализа творчества двух талантливых артистов — Нойз Мс и Оксимирон.
О словах, их количестве и уникальности было уже сказано если не почти все, то многое. Но что еще может повлиять на восприятие слышимого текста? В случае с рэп исполнителями это, конечно, скорость произнесенных слов. Скорость и качество произношения слов, безусловно, влияет на восприятие и понимание текста.

Ниже представлена скорость произношения слов на единицу времени (одна секунда). Также вы можете ознакомиться со статистикой песен с наибольшим количеством слов, а также с произведениями с наибольшей скоростью «читки».

image

У Нойз Мс средняя скорость произношения слов 1,77 слова в секунду. Это было ожидаемо, так как во многих песнях Нойза есть элемент «традиционного» пения, которое удлиняет время произношения слова. И стиль его песен, это не чистый рэп или хип-хоп, а чаще смесь рока с рэпом.

image

У Оксимирона среднее количество слов произнесенных за одну секунду выше, чем у его коллеги — 2.55 слова в секунду.

Трек XXX Shop, вероятнее всего, следовало бы исключить из данной статистики, так как в нём 2 куплета по английски и они исполнены другими артистами. Однако треки мы слушаем целиком, не разделяя на артистов. У Нойз Мс также достаточно много коллабораций.

Исходя из проведенного анализа, можно смело говорить о нескольких вещах. Во-первых, оба автора в своем творчестве уверенно пользуются всеми богатствами, которые им предоставляет русский язык. Во-вторых, большинство слов, из которых состоят их песни являются общеупотребимыми и популярными и среди других авторов, однако можно выделить несколько словоформ и биграмм, которые характерны только для них. И в-третьих, музыка Нойз МС и Оксимирона разная, как по стилю, по тематике, так и по словарному запасу, которые они используют. И однозначно, эта музыка, которая заслуживает внимания.

Также, надеюсь, что представленные методы анализа текстов исполнителей покажутся вам полезными и доступными к применению. Ведь анализ музыки, в том числе и рэпа, должен отличаться от обычного анализа литературных произведений. Во втором случае упор делается на длину предложений, количество слогов в словах, количество слов в предложениях, количество существительных/прилагательных/оборотов и тд. На мой взгляд, в рэп музыке это не имеет смысла, так как предложения соединяются в одно целое во время читки. Слова произносятся с большой скоростью, и тут уже важно хотя бы просто уследить за тем, что читает исполнитель.

Комментируйте, критикуйте. Ведь чем больше отзывов, тем мы быстрее и эффективнее сможем улучшить известные методы анализа музыкальных произведений.

Бонус. Дядя Женя

Дядя Женя. Мало кто знаком с его творчеством, но эта личность уникальна и выражается эта уникальность в текстах. Они сложны по своей структуре и невероятно наполнены смыслом и глубоким содержанием. Упоминания Ницше, Кастанеды, образов из мифологии, вордплеи и композиционные рефрены. Советую всем хоть немного ознакомиться с его творчеством.

Обзор его текстов будет краток, так как был сделан бонусом по просьбе trawl. От слов к делу.

Мне удалось найти 14 треков Дяди Жени с текстами. В них он использовал 10064 слов, и 5 756 после удаления стоп слов. Количество уникальных слов 2750. Вот как выглядит облако слов, составленное из списка самых популярных.

image

Конечно же хип-хоп это одно слово, но при обработке текстов, все словоформы разбиваются на токены.

Так выглядят самые популярные слова и наиболее часто задействованные в текстах.

image

Интересно, что хип использовалось на один раз больше чем хоп.

А вот так Дядя Женя распоряжался лексикой в текстах. 72% из 2750 уникальных слов он использовал лишь в одном произведении (возможно несколько раз). Что опять же может говорить о разной тематике в его творчестве. В целом его показатели очень схожи с показателями Оксимирона.

image

И напоследок, хочу показать песни с наибольшим количеством слов и наивысшей скоростью читки.

image

У Дяди Жени скорость даже выше чем у Оксимирона.

Конец

Автор: Виктор Бырда

Источник


* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js