Вторничная стартап-пятница: как Elevenapp превращает Skype-разговоры в текст

2013-10-15 в 6:43, admin, рубрики: Новости

На вопросы Сергея Еремина (wellSTART) отвечает

Борис Рохленко, фаундер и лидер проекта Eleven

Борис, расскажи кратко для чего и для кого создан Eleven?

Это сервис для распознавания речи в реальном времени. Сервис обрабатывает разговор в Skype (пока только в нём и только под Windows) и в считанные секунды отображает сказанное в текст. Вся беседа записывается в виде диалога: вот ваши слова, а вот — вашего собеседника. Обработка проходит у нас на серверах и текстовые диалоги тоже сохраняются в нашем облаке.

Кому это нужно? Бизнесменам, юристам, фрилансерам — тем, в чьей работе большую роль играет общение. Мы ориентировались на людей, связанных с бизнесом, но Eleven быстро облюбовали журналисты-прокрастинаторы, которых страшит перспектива расшифровывать интервью.

Как ты додумался сделать такой сервис?

Eleven родился из простой идеи записывать разговоры. Мы, фрилансеры, часто сталкиваемся с проблемой забытой задачи. Заканчиваешь обсуждение с заказчиком, а в голове остаётся лишь: "Окей, договорились". Приходится все дополнительно записывать и согласовывать в переписке. Фрилансер тратит время и силы на то, что заказчику совсем не нужно. Я уж не говорю про ситуации, когда заказчик говорит: "А помнишь, мы обсуждали сделать вот то-то, и ты согласился"?!...

Я вообще стараюсь не загружать мозг лишними задачами. Можно записать всё в блокнот или использовать todo-list в смартфоне, но делать это — ещё одна задача, ещё одно действие. Мы, программисты, не любим делать что-то муторное и однообразное. Если проблема встречается дважды, её автоматизируют.

Что прям так просто?

Я программист 13 лет, набирался опыта в больших и маленьких компаниях Израиля. Вернулся в родные Набережные Челны, занялся фрилансом и одновременно был удалённым сотрудником в крупной компании. Работа в одиночку утомила, мы же социальные типы, а дома у компьютера даже парой слов не с кем перекинуться. Случайно узнал что казанский IT-Парк открыл у нас филиал и первый в закамье коворкинг. Решил выйти на новый уровень и стал в нём первым коворкером. Между делом посещал стартап-посиделки, организованные IT-Парком. На одном из мероприятий встретил Булата Сайфутдинова и Владимира Чернова.

Для курильщиков больше половины всех решений и идей приходят в курилке. Стоим мы как-то в ноябре 2012 с Булатом, курим . Булат говорит:

- Борь, а вот есть такая проблема записи разговоров и перевода их в текст.

- Ну...

- Давай сделаем приложение, которое будет с голоса пулять задачи в todo-list?

- Как?

- Берём Google Voice API и цепляем к Skype.

- А Google даёт такую возможность?

- Ну да.

- Давай!

В это время я как раз работал над двумя проектами, и у меня в голове был полный салат из заданий. Я схватился за эту идею. На хабре было несколько статей про использование Google ASR, мы изучили опыт, что-то восприняли, что-то изменили, многое дописали сами, и через неделю был готов прототип. Работало криво, но суть идеи передавало.

В это время по сети ходил вирусный ролик про лифт с голосовым управлением — Eleven.

Недолго думая, мы так и нарекли наше детище. Этот ролик и число 11 – наша бизнес-модель. Разговоры до 11 минут распознаются бесплатно для всех, а за $11 в год – сумма о которой не задумываются потратить или нет – мы предоставляем возможность распознавать текст без временных ограничений.

Булат взял на себя серверную часть, он программист с 12-ти летним стажем и несмотря на загрузку по другим проекта справился за два месяца. Интерфейс и сайт делал Владимир, он 13 лет в дизайне и тоже работал без отрыва от других проектов. Я занимался нативным приложением. Уже в марте 2013 мы выпустили первую версию.

Сложно было вот так работать одновременно на несколько фронтов?

У ребят был свой проект CloudShop — приложение для учёта в мелко-розничной торговле. Его команда нам помогала. Позже у нас появились разногласия. Команда CloudShop сосредоточилась на своём проекте и больше не смогла помогать Eleven. Какое-то время я работал над Eleven и пытался совмещать фриланс, но в сентябре этого года понял, что проект буксует и "уволился" с фриланса. Теперь на 100% в проекте. Он стал новым этапом жизни. Верю в Eleven и отношусь к нему как к части себя — расту и развиваюсь в нём. Будучи программистом не понимал много вещей — решения руководства, например. Теперь, когда с обратной стороны баррикад, гляжу на разработку другими глазами.

И кто в результате остался в команде Eleven?

Владимир и Булат вышли из проекта. Сейчас мне помогают четверо студентов Казанского Университета (КФУ). Ребятам нужен опыт, а мне нужны светлые головы.

Ещё есть ассистент, Полина Абдрахманова, она пришла сразу после школы. Поступила на заочное отделение журфака КФУ, и имея малюсенький опыт, занимается публикациями.

Мне нравится моя команда, каждый день мы изучаем что-то новое. IT-Парк объединил нас, и в этом ему спасибо.

С командой разобрались. Поговорим о технологиях. На сколько надёжно распознавание? Ведь Google Voice рассчитан в основном для работы с телефонами. В них очень хорошие микрофоны и пьезоакустика. Для домашнего компьютера и ноутбука со встроенным микрофоном это не свойственно. Эхо и наводки ухудшает распознавание. Во время моих опытов с Eleven хорошо распознавался голос собеседника, а вот мой, мягко говоря, не очень. Не боитесь делать продукт в таких условиях?

Это общая проблема сервисов распознавания речи. Риски технологий и применения. Но мы рискнули.

Про технологические риски нас спрашивают многие. Например, не боимся ли мы закрытия гугловского API? Нет, не боимся. Если Google ASR прекратит своё существование, то перестанут работать многие "фишки" поисковика. Если Google просто отключит Voice, то будут проблемы с разработчиками приложений под Adorod, и в этом тоже ничего хорошего для Google нет. Есть ещё один момент: чем больше ASR работает, тем умнее он становится. Со временем его багаж наполняется, и распознавание становится лучше. Не считаю, что можно добиться идеального распознавания, но прогресс будет.

А как все это работает? Ведь Google не распознаёт длинные фразы?

Всё очень просто: мы режем ваш голос и отправляем его на сервер Goolge. Там он обрабатывается, мы получаем текст, делаем лог разговора и сохраняем в облаке.

Как же Eleven узнаёт, кто, что и когда говорил? А делает он следующее: сначала он подключается к Skype и отслеживает начало и конец разговора. Как только появляется звук, начинается запись. Далее он фиксирует конец сообщения. Для этого он слушает, есть ли в канале звук. Если нет, то он обрезает и сообщение кончилось. Если звук есть, то запись продолжается, так как обрезать на полуслове нельзя. Короткие аудионарезки отправляются на сервер и там расшифровываются.

Есть ещё один момент – мы не записываем и не распознаём разговор собеседника. Но тут не только технологические причины. Конечно, входящий поток распознаётся хуже собственного, но есть и правовые нюансы. Зато когда я звоню респонденту, у которого нет Eleven, ему приходит уведомление: "Смотри, какую крутую штуку я использую"! Такая система приглашений запускает вирусный-механизм. Когда Eleven стоит у каждого абонента, то расшифровывается обе стороны, и видят полную расшифровку тоже обе.

И виральность работает? Можете похвастаться цифрами? Сколько клиентов привлекли?

Главная метрика по которой мы себя оцениваем — количество пользователей. После запуска мы сразу набрали чуть более сотни пользователей, из которых активных было 10%. После первой публикации Полины на Хабрахабр всего за вечер количество пользователей увеличилось почти на 400%! Конверсия читателей в загрузки зашкаливала за 50%! Это придало сил команде — наш продукт нужен, им хотят пользоваться.

Ещё в Eleven реализован механизм "поделиться с друзьями" через социальные сети, и за это мы даём месяц бесплатного Premium-пользования. Правда мы пока не продаём премиум-акаунты... Все бесплатно... Разговоры более 11 минут фиксируем как потенциально премиальные. Сейчас набрали более пятисот пользователей, но скоро выйдет новая версия и надеемся на рост... существенно повысим полезность сервиса и ожидаем конверсию в районе 30-50%.

Негусто. До окупаемости, с таким числом пользователей, ой как далеко. За счёт чего существуете? Нашли инвестора?

Инвесторов у нас нет, проект финансируется основателями. идём, так сказать, "долиной смерти".

Но нам помогает инкубатор. Туда мы попали в декабре 2012. Каждые 2—3 месяца команда бизнес-инкубатора проводит отбор резидентов. Каждый проект общается с экспертами, готовит презентации и питчит. Мне, как человеку не привыкшему выступать на публике, было очень трудно переступить этот психологический барьер, но всему нужно учиться.

На площадке в ИТ-парк есть всё для работы — просторные офисы, компьютеры, сеть, охрана, уборка, а самое главное — атмосфера. Если можно, хочу лично поблагодарить команду бизнес-инкубатора: Ленра Халикова, Мансура Низамова, Фаема Ахметзянова и Нелю Ибрагимову за их нелёгкий труд. Не зря IT-парк — самый успешный технопарк в России.

А кто-то из потенциальных инвесторов видел проект? Какие отзывы из "мира капитала"?

Работая над Eleven, я не терял связи со старыми соратниками, Булатом и Владимиром. Общался и консультировал их CloudShop по техническим вопросам.

В составе делегации CloudShop мы участвовали в StartUpVillage в Сколково. На второй день слушали сессию о масштабировании глобального IT-бизнеса. Сессию вёл Майк Бутчер — редактор Techcrunch Europ. Внезапно он кричит в микрофон — "Конкурс! Кто хочет питчить"? Я не долго думая выбегаю на сцену. За 10 секунд (!) рассказываю о сути проекта и выигрываю питч-сессию! Состав был более чем представительным: Майк Бутчер — европейский редактор TechCrunch; Андреас Час — CEO Pioneers Festival; Микко Куузи — управляющий директор Startup Sauna Foundation; Степан Пачиков – основатель и член правления компании Evernote; Гайдар Магдануров – директор по инвестициям Runa Capital... Много ещё кто... Очень представительная делегация. Нас благосклонно выслушали, но прям на месте предложений инвестиций не последовало. Наверное, наблюдают и выжидают. Зато по результатам выступления про нас вышло две публикации на StartFellows ([1] и [2]) и получили много положительных отзывов.

Там же в Сколково удалось пообщаться с твоим тёзкой Серегеем Ереминым из Microsoft и его коллегами Заком Вейсфелдом и Алексеем Палладиным. Им проект понравился и мы подали заявку в Microsoft Seed Fund. Ждём решения.

Кроме того, мы заняли второе место на конкурсе БИТ-Татарстан и вскоре поедем на полуфинал в Москву. Рассчитываем на контакты в столице.

Возможно это выглядит, что мы активно ищем инвестиции. Но не это является главным стимулом. Мы хотим создать востребованный сервис приносящий деньги, а не проедать инвестиции. У нас нет второго шанса — я уверен в Eleven и метрики это показывают. Будем долбить, пока не пробъём... или разобъёмся. Мы поставили себе план — за два месяца сделать приложение, которое будет самоокупаться. В ближайшие два месяца запланировали начать коммерциализацию. Будем вытягивать проект на окупаемость, и если получится запускать новые сервисы.

А насколько ваш проект может быть инвестицио-привлекательным? Каких успехов сулит рынок?

Если предположить, что конкурентов нет, то можно выйти на очень впечатляющие показатели. Возьмём Skype. В нём где-то 600 млн пользователей. Из них половина, то есть 300 млн, активных. Доля бизнес-применения – 10%. Это 30 млн пользователей. Таким образом, если рассчитывать, что Eleven установит только 10%, из которых 10% премиум-пользователи, получим 300 тыс. платящих аккаунтов. То есть – $3,3 млн в год.

Можно посчитать и по-другому. Если взять сегмент фрилансеров, а это наша аудитория, то отталкиваясь только от данных Freelancer.com, где более 8 млн пользователей, можно предположить, что 1% от этой аудитории потенциально наши. То есть 800 тыс. аккаунтов.

Конечно, нам до этого далеко, да и географически 90% наших пользователей – Россия. Но опять же зарубежная экспансия будет в 3-м релизе Eleven.

Но такой рынок не может остаться без конкуренции. Кто-нибудь делает что-то похожее?

Конечно, у нас есть конкуренты. Это Nuance и RealSpeaker. Последние — резиденты казанского IT-Парка. Для работы они анализируют звукс микрофона, движение губ через камеру и сопоставляют их. Чтобы пользоваться нашим приложением, камера не нужна... только микрофон, а это экономия для пользователя.

Что касается, Nuance, то изначально схожий с нами проект в 2009 году пыталась делать компания SpinVox. К радости основателей, SpinVox был куплен Nuance, и по нашим сведениям расформирован. Получается, что схожие решения у Naunce есть, а сервиса до сих пор нет.

Вообще, наша фишка в том, что мы базируемся на уже существующих платформах распознавания речи и транспорте передачи голоса. Мы не конкурируем с ними. У нас все просто. Нашли реально нужное и востребованное применение существующих технологий и реализовали.

Мы знаем, что нас могут повторить и скопировать, поэтому нам надо очень быстро развиваться. Но даже Skype в своих первых версиях использовал модули VoIP стороннего разработчика. У Skype в начале пути тоже были очень серьёзные конкуренты, например VocalTek и многие другие. Наша фишка в пользе конечному клиенту за вменяемые деньги. Если кто-то сделает такой же продукт как у нас, я буду рад. Это будет означать, что Eleven — нужная штука. Но пусть знают, что и мы не будем стоять на месте, в новой версии...

Я понял, понял... ты очень хочешь рассказать про новую версию. Уже третий раз начинаешь. Рассказывай!(Улыбается) Просто релиз уже близко, и я ни о чём другом думать не могу.

В третьей версии у нас появится индексирование аудио. Как это происходит в обычной жизни: допустим, вы обсуждали по Skype с женой, предстоящие покупки. Огромный список вы не помните, но точно знаете, что там было молоко. Вводите в строке поиска "молоко", и Eleven вам выдаст сообщения с этим словом и места на звуковой дорожке. Кликнув по слову, вы сможете прослушать и просмотреть нужный отрезок... вспомнить всё, о чём шёл разговор.

Ещё будет реализован один немаловажный пункт — "регистрация в один клик". Всё что нужно приложение сделает само.

Кроме того, мы разрабатываем ещё один продукт - Eleven.Edu. Это мобильное приложение для студентов для записи и перевода в текст лекций с возможностью фотографировать доску, ставить метки, редактировать текст и делиться результатами с друзьями-одногруппниками.

Вторничная стартап пятница: как Elevenapp превращает Skype разговоры в текст

Это интересно. Образовательные проекты в тренде и такое направление развития Eleven кажется перспективным. А если говорить о совсем отдалённом будущем?

Наша цель — сделать такое приложение, которым люди сами хотят пользоваться. Оно должно быть удобным, красивым и интуитивным. Я вижу Eleven как систему, облегчающую жизнь занятому человеку, с множеством интуитивно-понятных функций, применимых как на работе, так и в быту. Технологически мы станем платформо-независимы, и будем интегрироваться во все известные системы коммуникаций.

А что произойдёт с отраслью?

Произойдёт эволюция в коммуникациях. Вот, например, человек со знанием английского на школьном уровне разговаривает с иностранцем. Сначала он переводит слова своего собеседника у себя в голове на русский, по ходу обдумывая их, и лишь потом в целом понимает, что ему сказали. Чтобы ответить, ему опять приходится умственно потрудиться, потому что мыслит он тоже на русском.

То же самое происходит с нашей техникой. Когда мы пользуемся голосовыми командами, сначала она распознаёт наш голос, затем переводит в текст и только потом переводит наши слова на программный язык. Я верю, что через некоторое время компьютер будет понимать наш голос. Техника будет понимать нас на уровне голоса без каких-либо преобразований. А люди говорящие на разных языках будут общаться с помощью техники не чувствуя языковых отличий.

***

Резюме Сергея Ерёмина о проекте:

Сильные стороны: Потенциально широкое применение. Простота использования и востребованность в широких областях. Встроенная виральность. Низкая цена.

Слабые стороны: Технологическая зависимость от Google. Недостаток ресурсов для развития и экспериментов. Высокие издержки маркетинга свойственные потребительским рынкам.

Возможности: Миграция на другие системы голосового транспорта (VoIP) и предложение решений класса b2b (интеграция в PBX и CRM).

Угрозы: Действия поставщика сервиса распознавания голоса в лице Google (ввод платы за использование API). Возможность появления аналогичного функционала внутри транспорта (Skype, Asterisk и пр.). Действия конкурентов.

Источник