Последние пару месяцев у меня случилось много разных созвонов на английском. В целом, я обычно нормально все понимаю, но боюсь упустить что-то важное. Даже субтитры помогают лишь частично. То есть нужен костыль (или аугментация).
Поискал, что есть из того, что может пригодиться. Нашел статью на Хабре про расшифровку собеседований. Идея простая: записал аудио, прогнал через Whisper, скопировал текст в ChatGPT, получил анализ. В целом ок, но pipeline выглядел так:
-
Запустить запись в OBS / аудасити / что-то ещё
-
Дождаться конца звонка, сохранить файл
-
Запустить скрипт с Whisper


