Искусственный интеллект Google DeepMind, разработанный вместе с учеными Оксфордского университета, научился понимать речь, следя за артикуляцией говорящего. За все время метод изучил около 5 тыс. часов видео либо около 118 тыс. предложений. Ей удалось превзойти профессионального читателя по губам, который предоставляет услуги для английских судов.
После показа случайной выборки из 200 видео из передач BBC, человек, читающий по губам, смог расшифровать наименее четверти произносимых слов. В результате она смогла прочитать по губам речь телеведущих с точностью 46,8%. В предыдущем году была приобретена Google.
Две недели назад еще одна система глубокого обучения, которая может читать по губам, была разработана в Оксфордском университете. На лицо еще одна победа ИИ над человеком.
В GRID используют видео с хорошим освещением и глядящими в камеру людьми, читающими слова на протяжении по крайней мере 3 секунд. После показа системе 29 тыс. видео уровень ошибок составил всего 6,6%, тогда как людей тестировали с употреблением 300 подобных видео и уровень ошибок составил 47,7%. Данная же технология имеет огромное количество остальных применений, в том числе способна посодействовать людям с трудностями со слухом. ИИ может слышать пользователя в шумном окружении, помогать восстанавливать архивные немые фильмы, решать проблемы с распознаванием речи при одновременном разговоре множества людей и улучшать системы автоматического распознавания речи в целом. Разработкой занимались профессионалы подразделения DeepMind, передает Газета.Ru со сылкой на печатное издание The Verge.