Человек обладает способностью выделять голос собеседника из шума, например, в месте большого скопления людей. Эту способность называют «эффектом коктейльной вечеринки». Наш мозг загружает ненужные звуки. Автоматическое разделение звуков на отдельные дорожки компьютером также изучено, но до сих пор такая работа остаётся сложной задачей для машины.
Команда из Google представила самообучаемую систему, способную «выхватывать» речь человека с помощью одновременного распознавания аудио и видеоряда, отделяя другие голоса и посторонний шум. Исследование называется «Смотреть, чтобы слышать на коктейльной вечеринке» («Looking to Listen at the Cocktail Party»).