Советский переводчик Михаил Лозинский выпустил перевод трагедии Вильяма Шекспира "Гамлет, принц датский" в 1933 году. Этот перевод считается "каноническим", наиболее точным, буквальным. Впервые за много лет в переводе Лозинского была соблюдена сложная метрика шекспировского текста, выдержано количество строк.
Борис Пастернак основательно выучил английский язык уже взрослым человеком, когда начал читать и переводить английских классиков. Его перевод "Гамлета" вышел в 1941 году.
Оба перевода многократно изданы и поставлены в театрах.
Традиционное литературоведение обычно опирается на качественную интерпретацию и говорит, что "Лозинский более точен, а Пастернак свободен".
Мне стало интересно провести компаративный анализ двух переводов с помощью Python и математически вычислить, чем "Гамлет" Лозинского отличается от версии Пастернака на уровне синтаксиса, семантики и ритма.
Я нашел в интернете английский текст трагедии на сайте "Библиотеки Гутенберга", перевод Лозинского скачал с сайта Lib.ru и перевод Пастернака взял с сайта booksite.ru.
Загруженные тексты я обработал, чтобы удалить ремарки в скобках, очистить пустые строки и служебные пометки и избавиться от артефактов разных кодировок.
Я начал с того, что провел подсчет слогов в текстах, чтобы вычислить ритмический профиль и посмотреть, как поэта сохраняют размеры.
def count_syllables(word):
word = word.lower().strip(string.punctuation + '«»""'')
if not word: return 0
vowels = 'aeiouyаеёиоуыэюя'
return max(1, sum(1 for c in word if c in vowels))
Здесь я использовал эвристический подсчет по гласным.
Что получилось:
Среднее число слогов в строке в оригинале 12,34 у Лозинского 14,82, у Пастернака 13,91.
У обоих переводчиков выросло число слогов в строке, у Лозинского больше. Скорее всего, это связано с тем, что здесь переводчик старается адаптировать текст под русскую силлабо-тонику. В русском стихосложении слова более неоднородны по количеству слогов и больше длинных слов, чем в английском.
Далее я посмотрел, как часто переводчики меняют порядок слов в предложениях.
def detect_inversions(doc):
inv = 0
for token in doc:
if token.dep_ in ('nsubj', 'nsubjpass') and token.i > token.head.i and token.head.pos_ == 'VERB':
inv += 1
return inv
Этот код количественно оценивает, насколько переводчик меняет порядок слов для стилистических целей. В науке такое изменение порядка слов называется "инверсией".
Что получилось. Среднее число инверсий на строку в оригинале 0,312, у Лозинского 0,471, у Пастернака 0,523.
В оригинале количество инверсий оценивается по активности или пассивности подлежащего, стоит ли оно после своего головного слова и является ли головное слово глаголом. По среднему числу инверсий видно, что Пастернак чаще меняет порядок слов, в его переводе видимо больше художественной стилистической свободы. При этом у обоих переводчиков разница с оригиналом небольшая. Оба переводчика сохраняют синтаксическую структуру оригинала, что подтверждает тезис о точности перевода Лозинского и умеренной свободе Пастернака.
Далее я решил проверить, как и для чего переводчики меняют грамматическую категорию слов, то есть род, число, падеж, наклонение. Эту оценку я решил провести с помощью анализа расхождения POS-тегов и вычисления L1-расстояния (суммы модулей разностей) между двумя распределениями. POS-теги (part-of-speech tags) присваиваются словам для указания их части речи и грамматических характеристик.
Этот анализ позволит увидеть, сохраняет ли переводчик грамматическую структуру оригинала.
def pos_l1_distance(dist1, dist2):
all_tags = set(list(dist1.keys()) + list(dist2.keys()))
return sum(abs(dist1.get(t, 0) - dist2.get(t, 0)) for t in all_tags)
Что получилось. L1-расхождение POS-тегов. У Лозинского 0,241. У Пастернака 0,289. У Пастернака оценка выше, то есть у него больше грамматических трансформаций.
Далее я решил провести анализ семантического сходства через эмбеддинги. Оценку я провел с помощью модели paraphrase-multilingual-MiniLM-L12-v2, разновидности SBERT. Эта модель поддерживает русский и английскими языки, обучена на парах перефразировок и хорошо улавливает семантическую эквивалентность.
model_emb = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
emb_en = model_emb.encode(en, convert_to_tensor=True)
emb_ru = model_emb.encode(ru, convert_to_tensor=True)
similarity = util.pytorch_cos_sim(emb_en, emb_ru).item()
Что получилось. Косинусное сходство для Лозинского 0.730 для Пастернака 0.718.
Оба значения попадают в диапазон умеренно высокой близости (0.70–0.75), что характерно для художественных переводов, где допустимы стилистические и грамматические трансформации при сохранении общего смысла. Но нужно отметить, что перевод Лозинского все же ближе к оригиналу на 1,2 процента.
Я провел анализ плотности пунктуации в обоих переводах, то есть поделил число знаков препинания на число слов. Плотность пунктуации отражает частоту интонационных пауз, синтаксическую сложность, стилистическую насыщенность текста.
punct_set = string.punctuation + '«»""'—–…'
punct_count = sum(1 for char in text if char in punct_set)
word_count = max(len(text.split()), 1)
return punct_count / word_count
Что получилось. Средняя плотность пунктуации в оригинале 0,4133. У Лозинского 0,2803, у Пастернака 0,2782.
Тут стоит отметить, что в оригинальном тексте Шекспира плотность пунктуации почти вдвое выше, чем у обоих переводчиков. Скорее всего, это можно объяснить особенностями английского языка 16 века. Оба переводчика снижают плотность, адаптируя текст под нормы русского литературного языка, где пунктуация более сдержанная. При этом по медиане видно, что переводчики сохраняют базовый ритм пунктуации оригинала в большинстве строк. По стандартному отклонению видно, что у оригинала больший разброс плотности пунктуации, встречают и перенасыщенные и почти пустые строки. Оба переводчика нормализуют стилистические крайности оригинала, показывая более стабильную пунктуацию.

По наибольшему и наименьшему значению в выборке видно, что Пастернак чаще прибегает к усилению пунктуации в ключевых моментах (максимум 4), проявляя больше художественной выразительности. А Михаил Лозинский более сдержан (максимум 3), что подтверждает тезис о его "точности".
По моему анализу видно, что оба переводчика дают нам возможность очень близко узнать трагедию Шекспира. И если по косинусному сходству перевод Лозинского чуть ближе к оригиналу, то это хороший повод вернуться к тексту и поискать эту разницу.
Автор: Eco_coder
