Ученые из подразделения Google DeepMind, которые занимаются искусственным интеллектом, разработали программное обеспечение (ПО), которое может читать по губам.
Всего нейросетью было «просмотрено» 5 000 часов эфира, которые содержат 118 116 предложений человеческой речи. В итоге этого ИИ научился «читать по губам» даже в тех случаях, когда человек «проглатывает» части слов. При всем этом приобретенные результаты могли быть еще лучше, однако в некоторых случаях аудио и видео отставали фактически на секунду, что мешало ИИ правильно выстраивать ассоциативные связи.
Во время просмотра 200 случайно выбранных видео от компании BBC профессионалы по чтению по губам смогли распознать наименее четверти произнесённых слов. Система искусственного интеллекта распознала практически половину слов и могла разбирать целые сложные фразы. Большинство ошибок ИИ были небольшими, как отсутствие 'S' в конце слов. Однако если словарный запас GRID состоял из всего лишь 51 необычайного слова, то в ТВ-шоу BBC таких было сказано 17 500, что представляло значительно более трудную задачу для компьютерных алгоритмов. После показа ИИ 29 000 видео, он имел частоту ошибок только 6,6 процента, в то время как люди, которые были протестированы с применением 300 схожих видео, имели средний коэффициент ошибок 47,7 процента.
Предполагается, что программа будет полезна людям с трудностями по слуху.