Новая программа распознаёт речь по губам лучше специалистов

Новая программа распознаёт речь по губам лучше специалистов
Новая программа распознаёт речь по губам лучше специалистов
Фото: www.vesti.ru

Чтение по губам, как известно, часто используется глухими и слабослышащими людьми для общения с другими членами общества. Обучить такому навыку непросто и занимает много времени, однако теперь эту задачу может взять на себя искусственный интеллект.

Новая компьютерная программа   под названием Watch, Attend and Spell ("смотри, следи и читай по буквам"), или WAS, разработанная специалистами Оксфордского университета совместно с компанией DeepMind , не только упростит коммуникацию для глухих людей, но также позволит учёным продвинуться в усовершенствовании искусственного интеллекта.

Напомним, что ещё осенью 2016 года специалисты рассказали   о разработке алгоритма, который распознаёт речь по губам лучше, чем профессионалы. ИИ-систему, использующую компьютерное зрение и методы машинного обучения, "тренировали", показывая ей выпуски различных телешоу общей продолжительностью пять тысяч часов (примерно 118 тысяч предложений).

Затем последовала проверка эффективности: из случайной выборки 200 видеофрагментов профессиональный чтец по губам безошибочно распознал только 12,4% произнесённых слов, в то время как компьютерные алгоритмы — 46,8%. При этом ошибки системы были незначительными, например, единичный пропуск буквы либо потеря буквы на конце слова (напомним, что в английском языке буква "s" на конце существительного может обозначать множественное число слова).

Как отмечает соавтор разработки Джун Сон Чун ( Joon Son Chung ), очень важную роль играет также понимание контекста, а этому программу обучить сложнее, нежели человека. К примеру, слова mat (коврик), bat (летучая мышь) и pat (погладить) по артикуляции практически неотличимы, и выбрать нужный вариант поможет только контекст.

При этом программа WAS обеспечивает не только точность, но и скорость понимания, добавляют авторы. Но есть у неё и недостатки. Пока что система не способна работать в режиме онлайн, а кроме того, она умеет распознавать лишь цельные предложения. Заставить систему работать в режиме онлайн, а также усовершенствовать точность распознавания слов – сейчас это основные задачи авторов проекта. "Тренировки" планируется продолжить на телевизионных программах.

Что же касается перспектив использования, то они представляются весьма широкими. "Чтение по губам – это впечатляющий и сложный в освоении навык, и WAS создана, чтобы помочь переводчикам, например, предлагая им варианты на утверждение. Есть и другие применения: давать указания смартфону в шумной обстановке, озвучивать немые фильмы, различать речь нескольких человек, говорящих одновременно", — добавляет Джун Сон Чун. Но, что самое главное, программа поможет адаптироваться к просмотру видео и даже общению глухим и слабослышащим людям.

Подробное описание программы Watch, Attend and Spell представлено   на сайте Оксфордского университета.

Напомним, что ранее казанские учёные создали распознаватель речи . Кроме того, специалистами была создана новая система аутентификации , которая распознаёт пользователя по движению губ  и предотвращает взлом систем безопасности.

 
По теме
14 мая 2024 года в 11:00 в актовом зале Центра морского бурения в гибридном формате пройдет II Молодежный конкурс научных и инженерных проектов по переработке углеводородных ресурсов.
28 марта 2024 года состоялось совместное заседание Комитета по молодежной политике и Комитета по безопасности и противодействию коррупции Государственной Думы Федерального Собрания Российской Федерации.
Основы безопасности – это одна из ключевых областей знаний, которые необходимо усваивать с детства, чтобы быть готовым к действиям в чрезвычайных ситуациях.
ГУ МЧС России по г. Москве
Как молиться о жертвах теракта - Звездный бульвар Фото: Александр Авилов, АГН "Москва" Первая реакция человека, узнавшего о трагедии в «Крокус Сити Холл» — что-то сделать.
Звездный бульвар
Счет шел на секунда: как врачи спасали жизни пострадавших в теракте в «Крокусе» - Вечерняя Москва Заместитель главного врача по медчасти НИИ скорой помощи им. Склифосовского Артем Саприн во флагманском центре, куда доставили многих пострадавших в результате теракта в «Крокус Сити Холле».
Вечерняя Москва
Спасатель-доброволец из Новогиреево разбирал завалы после теракта в «Крокусе» - Восточный округ Первые шаги как волонтёр Турсун сделал во время пандемии. Фото: Григорий Матвеев Житель Братской улицы 43-летний Турсун Коенов почти два года состоит в отряде спасателей-добровольцев «СпасРезерв».
Восточный округ