Рубрика «транскрибация»

У многих из нас есть «кладбище» аудиозаписей: интервью, лекции, длинные совещания. Когда мой архив перевалил за сотню часов, я понял, что пора что-то менять. Облачные сервисы либо кусаются по цене, либо выдают «кашу» без нормальной пунктуации и разделения спикеров.

В этой статье я расскажу, как собрал локальный конвейер на базе WhisperX, почему 40 ГБ оперативной памяти важнее мощной видеокарты и как метод «вайб-кодинга» помог мне превратить одиночный скрипт в модульное приложение с пакетной обработкой.

Почему не ванильный Whisper?

Оригинальный Whisper от OpenAI хорош, но для моих задач у него было три фатальных недостатка:

  1. Читать полностью »
Как я решил проблему длинных совещаний вайбкодингом и китайской видеокартой - 1

Еще одна статья про whisper + pyannote для транскрибации совещаний? Да, но нет.

Читать полностью »

I. Первые шаги: листок, стенография и диктофон

В середине XX века к протоколированию добавился диктофон. Уже не надо было все ловить «на лету» — можно записать разговор и потом «разложить» записи в текст. Но диктофон имел слабое место: качество записи, шум, шепоты, пересекающиеся голоса — всё это мешало точности. К тому же, никто не может слушать три часа записи без усталости — и всё равно надо вручную транскрибировать, выбирать, что важно.

Но технология, решая одну проблему, тут же создала другую. Часовые записи становились «цифровым кладбищемЧитать полностью »

Топ моделей для контента - 1

В последние годы генеративные нейросети стали не просто трендом, а полноценным инструментом для создания контента. Текст, изображения, аудио и даже видео — всё это можно сгенерировать с помощью моделей искусственного интеллектаЧитать полностью »

OpenAI взимает оплату поминутно, так что сделаем минуты короче - 1

Хотите ускорить и удешевить транскрибации OpenAI? Просто повысьте скорость аудио.

Я имею в виду буквально. Перед транскрибацией увеличьте скорость аудио в два или в три раза в Читать полностью »

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2) - 1

В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…

Читать полностью »

Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом его нужно ещё «переварить» и зафиксировать.

Интереснейшие лекции хочется сохранить не только в памяти, но и в виде тезисов, а ещё есть подкасты, интервью, да и банальные голосовые заметки, надиктованные на бегу. Знакомая картина?

На помощь приходят облачные сервисы: транскрибация, Читать полностью »

Собеседования — всегда стресс. Я замечал, что после каждого интервью трудно вспомнить детали: какие вопросы задавали, как именно я отвечал, где были ошибки или неточности. А переслушивать запись, которая может длиться от часа и выше это долго и неэффективно.

Задумался: а что если использовать что‑то, что автоматически превратит аудиозапись интервью в текст? Так я открыл для себя Whisper от OpenAI. Ниже подробности о его применении.

⚠️ Важно: записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

Или

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js