Что такое Siri и как работает голосовой помощник?
Создание смартфонов и искусственного интеллекта, а также огромное количество потребительских данных привело к созданию нового поколения виртуальных помощников.
Носители также играют важную роль: распознавание речи теперь встроено в каждую ОС, что позволяет пользователям говорить со смартфоном. Если вы думаете о приложении Siri, кажется, что мы все еще далеки от мечты разговаривать по-разному с машиной.
Хорошей новостью является то, что технология быстро улучшается, и будущие виртуальные помощники смогут конвертировать ваши слова в надлежащий контекст и ответить соответственно. Задача намного сложнее, чем вы думаете, о чем собственно и пойдет речь. Машины, разговаривающие с людьми, приходят издалека.
В 2003 году DARPA инвестировал в один проект, нацеленный на создание виртуального помощника. Правительство хотело разработать программное обеспечение для помощи военным командирам по оптимизации коммуникаций. Этот помощник был назван CALO, когнитивный помощник.
Как работает Siri?
Siri является потомком крупнейшего проекта в области искусственного интеллекта в истории США и была воплощена в жизнь тремя учеными, которые запустили автономное приложение для iPhone под названием Siri в начале 2010 года.
Через несколько недель после запуска они получили телефонный звонок, который, я полагаю, звучал так: «Эй, это Стив. Что ты делаешь завтра? Хотите приехать ко мне домой?». Это был Стив Джобс из Apple, которые приобрели технологию за $150 млн в 2011 году. Проблема в том, что Siri также является неким завещанием Стива … он умер на следующий день после первой презентации Siri.
1 Распознавание голоса
Это, по-видимому, легкое, что может быть, но здесь все только начинается. Когда вы даете Siri команду, ваше устройство собирает ваши слова, и конвертирует в аудиофайл ( он преобразуется в двоичный код) и отправлять его на серверы Apple. Нюансы вашего голоса, шум вокруг и местные выражения затрудняют его работу. Здесь важно, чтобы каждый день, Apple собирает миллионы запросов людей, говорящих на нескольких языках, во многих акцентах, живущих на разных континентах. Другими словами, с их действиями и ошибками, люди вносят вклад в крупнейший эксперимент по распознаванию речи, который когда-либо был на земле.
Сегодня приложение Siri получает примерно миллиард запросов в неделю, и Apple заявляет, что способность распознавания речи имеет всего лишь 5-процентный коэффициент ошибок в словах. В прошлом году Apple приобрела компанию распознавания речи Novauris Technologies, которая была использована Dragon Systems, а также наняла несколько экспертов по распознаванию речи.
2 Отправка на сервер Apple
Siri не обрабатывает вашу речь локально на смартфоне. Это явно проблема, если вы не подключены к интернету по какой-либо причине, но таким образом Apple получает два основных преимущества:
- Выгружать большую часть работы на мощные компьютеры, а не потреблять ограниченные ресурсы смартфона
- Использовать собранные данные для постоянного улучшения обслуживания
Приложение Siri построено с логикой предварительного программирования всего возможного набора вопросов и правил для ответа. Это было еще более очевидно, когда в октябре 2015 года Apple обновил приложение Siri.
3 Понять смысл
Процесс понимания того, что просит пользователь, основывается на области науки, называемой обработкой естественного языка. У людей есть десятки способов спросить то же самое. Мы можем выразить понятие, используя бесконечные комбинации слов. «Я настроен на пиццу», «Есть ли поблизости итальянский ресторан?», «Мне бы очень понравилась сегодня Катя».
Чтобы упростить свою жизнь, программное обеспечение Siri моделирует лингвистику. Он анализирует, как ключевое слово субъекта связано с объектом и глаголом. Другими словами, он рассматривает синтаксическую структуру текста. Решение спуститься по ветви блок-схемы или другой, зависит от существительных, прилагательных, глаголов. А также общую интонацию предложений. Кроме того, Siri может задавать вопросы и следить за командами. Это не совсем то, что человек назвал бы «беседой», но это означает, что он понимает контекст/ Это отправная точка для будущих событий.
4 Инструкции
Мы знаем, что Siri здесь, чтобы помочь нам, а не просто понять, о чем мы говорим. В документальном фильме о Siri, основатель Адам Чейлер сообщил: «Я помню, как в первый раз мы загрузили эти источники данных в Siri, я сказал ей «start over», и Siri ответила: «Ищете компании под названием «В Стар, Луизиана».
Когда приложение Siri понимает, чего вы хотите, она должна вести диалог с другими приложениями, чтобы это реализовать. И каждое приложение отличается и частично имеет свой собственный «язык».
Система должна иметь то, что называется доменным знанием, оно должно иметь некую предметную область, о которой вы говорите.
В человеческом разговоре, это происходит каждый раз, когда мы разговариваем с экспертами в определенной области, и они используют специальные слова, которые мы почти не понимаем. Это очевидно, когда мы говорим с врачом, архитектором или финансовым лицом, например.
Для приложения Siri это одно и то же. Когда он должен дать направление, Заказать билет на поезд или отправить текст, который он должен вести с другими приложениями … и понять их контекст. Это немаловажно. Если протокол не работает, Siri может дать инструкции другим приложениям выполнять действия, которые вам не нужны, и ожидать или могут быть даже потенциально опасными для вас.
И последнее, не менее важное: после того, как запрос обработан, Siri должен преобразовать результат обратно в текст, который может быть передан пользователю. Хотя это не так сложно, как обработка пользовательской команды, эта задача, известная как генерация естественного языка, все еще вызывает определенные проблемы.
Сегодня Siri говорит с американским голосом как «Саманта», предоставленная Сьюзан Беннетт в июле 2005 года. Но после того, как Apple купила Siri, им пришлось расширить возможности сотен языков. И это еще одна причина, по которой приложение Siri растет не так быстро, как первоначальное ожидание.