На сегодняшний день существует немало компьютерных программ, которые способны с переменным успехом читать по губам человека то, что он в данный момент говорит. Как правило, точность распознавания таких программ не превышает 52%, что довольно неплохо, но всё же далеко от совершенства. Даже очень профессиональный сурдопедагог способен достичь точности лишь в 50-60%. А учёным из Оксфордского университета удалось разработать алгоритм LipNet, читающий по губам с точностью 93,4%, что является на сегодняшний день непревзойдённым результатом.
Секрет столь высокой эффективности новой программы заключается в том, что она не пытается анализировать слова отдельно друг от друга, а воспринимает предложения целиком, а затем задействует технику глубинного машинного обучения и приступает к расшифровке вербальной последовательности. По сути, перед нами продвинутая нейронная сеть, способная с высокой долей вероятности угадать практически каждое произнесённое человеком слово, при этом не имея доступа к аудиальной информации. Сфера применения этого алгоритма просто огромна, но в первую очередь он может стать спасательным кругом для многих людей с ослабленным или полностью отсутствующим слухом.
Учёным пришлось перелопатить немало существующих на сегодняшний день исследований в данной области, изучить десятки других алгоритмов, чтобы выявить их слабые стороны и понять, в каком направлении следует двигаться дальше, чтобы усовершенствовать технологию. Итоги их работы впечатляют. Пока, разумеется, LipNet умеет распознавать по губам исключительно англоязычную речь. Но в будущем никто не мешает обучить систему новым для неё языкам. Вы можете увидеть, как работает алгоритм в видео, опубликованном на официальном канале одного из исследователей.