Рубрика «обработка аудио»
Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts
2026-03-25 в 11:16, admin, рубрики: computer vision, media pipeline, opencv, python, Whisper, YouTube Shorts, автоматизация, анализ видео, обработка аудио, субтитрыКак мы научились определять продвинутые автоответчики
2026-02-13 в 4:31, admin, рубрики: asr, детекция автоответчиков, диалоговые системы, машинное обучение, обработка аудио, распознавание речи, скоринговая модельКак мы научились определять продвинутые автоответчики
Год назад мы начали использовать ASR для обработки записей телефонных звонков.
TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper.
Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче.
На практике всё оказалось сильно сложнее.
Мы работаем с Читать полностью »
Рисуем звук
2019-10-04 в 9:05, admin, рубрики: aphex twin, Asm.js, fftw, javascript, webassembly, Алгоритмы, визуализация данных, звук, обработка аудио, преобразование фурье, спектрограмма, фонетикаПять лет назад на Хабре была опубликована статья «Печать и воспроизведение звука на бумаге» — о системе создания и проигрывания спектрограмм. Затем, полтора года назад Meklon опубликовал квест, в котором такая чёрно-белая логарифмическая спектрограмма стала одним из этапов. По авторскому замыслу, её надо было распечатать на принтере, отсканировать смартфоном с приложением-проигрывателем, и воспользоваться таким образом «надиктованным» паролем.

У меня в тот момент не было в досягаемости ни принтера, ни смартфона, так что меня заинтересовали два аспекта задачи:
- Как проще всего расшифровать спектрограмму без дополнительных устройств и без дополнительного софта — желательно, прямо в браузере?
- Можно ли её расшифровать вообще без софта — «на глаз»?
Обзор новых возможностей Mathematica 11 и языка Wolfram Language
2016-08-21 в 8:42, admin, рубрики: 3D-печать, api, web-разработка, Wolfram Alpha, wolfram cloud, wolfram data drop, wolfram development platform, wolfram language, wolfram mathematica, wolfram research, Блог компании Wolfram Research, визуализация, визуализация данных, временные ряды, география, дифференциальные уравнения, интегральные уравнения, математика, машинное обучение, наука, обработка аудио, обработка текста, образование, открытые данные, Программирование, программирование систем, уравнения в частных производных
Перевод поста Стивен Вольфрам (Stephen Wolfram) "Today We Launch Version 11!".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации
Содержание
— Первое, что вы отметите...
— 3D печать
— Машинное обучение и нейронные сети
— Аудио
— Встроенные данные о чем угодно: от скелетной структуры и продуктов питания до сведений о нашей Вселенной
— Вычисления с реальными объектами
— Передовые возможности географических вычислений и визуализаций
— Не забудем про сложные задачи математического анализа и теоретической физики...
— Образование
— Совмещение всех функций в одно целое
— Визуализация
— От строк к тексту
— Современный подход к программированию систем
— Работа в интернете
— Облачные данные
— Подключайтесь к любым внешним сервисам: Facebook, Twitter, Instagram, ArXiv, Reddit и многим другим...
— WolframScript
— Новое в ядре языка Wolfram Language
— И еще много нового...
Я рад объявить о выходе новой версии системы Mathematica и 11-й версии языка Wolfram Language, доступной как для Desktop-компьютеров, так и в облачном виде. В течение последних двух лет сотни человек упорно трудились над ее созданием, а несколько тысяч часов и я лично. Я очень взволнован; это важный шаг вперед, имеющий важное значение для многих крупнейших технологических областей.
Прошло больше 28 лет с тех пор, как вышла 1-я версия, — и почти 30 лет с тех пор, как я занялся ее разработкой. И все это время я продолжал воплощать дерзкую мечту — строить все больший и больший стек технологий. Большая часть программного обеспечения спустя несколько лет и несколько версий, за исключением мелких доработок, практически не меняется. С системой Mathematica и Wolfram Language сложилась совсем другая история: в течение трех десятилетий мы c каждой новой версией продвигались вперед, завоевывая постепенно огромное количество новых областей.
Читать полностью »


