Искусственный интеллект уже читает по губам лучше признанных профи


Опубликованно 24.11.2016 01:35

Искусственный интеллект уже читает по губам лучше признанных профи

Искусственный интеллект Google DeepMind научился читать по губам лучше, чем любой человек, специалист в этом деле.

Специалисты проекта DeepMind Google и исследователи из Оксфордского университета вместе обучение в системе искусственного интеллекта на основе нейронных сетей искусство чтения по губам. Обучение системы проводилось путем "скармливания" ей 5 тысяч часов записи различных программ на телеканал би-БИ-Си, в том числе Newsnight, BBC Breakfast Question Time. И как результат этого система искусственного интеллекта была способна распознать слова по движениям губ человека с такой точностью, которая недостижима для людей, специалистов в этом деле.

После процедуры обучения, системы искусственного интеллекта, оказался в состоянии расшифровать даже самые сложные фразы и предложения, определения, слова, произносимые людьми, которые, как правило, "глотать" окончания слов, и люди, которые имеют не очень характерно для лица или для тела человека. В качестве доказательства работы набор различных телевизионных программ были выбраны 200 случайных фрагментов. Человек-профессионал в состоянии безошибочно распознавать весь 12.4% слов, в то время как искусственный интеллект показал результат на 46.8%, в частности, выиграть не только человека, но и других автоматизированных систем чтение по губам.

"Все это большой шаг на пути к созданию автоматического чтения по губам", - объясняет Зиэнг Чжоу (Ziheng Чжоу), ученый из университета Оулу, Финляндия, "И это стало возможным благодаря огромным исходного набора данных, где система настроена". Размер набора данных источника в том, что на 5 тысяч часов записей содержит около 118 тысяч предложений, сделанных разными людьми, людьми, которые снимались с разных точек зрения.

Успех участия в мероприятии ученых из Оксфордского университета и компании Google на основе исследований оксфордских ученых, благодаря которым в свое время была создана система чтения по губам GRID. В качестве источника информации в этой системе использовались данные суставе, люди с произношением 51 уникальный ключ слов. Система Google, обученный в набор данных, который содержит около 17 500 уникальных слов, гораздо богаче исходных данных, что ощутимо сказывается на качестве его работы.

Кроме того, система Google была настроена на настоящие образцы человеческого голоса, и не в 33 тысячи синтетических предложений, сделанных специально для обучения система GRID. Таким образом, система Google является менее восприимчивым к особенностям каждого конкретного человека и на эмоции, которые иногда очень сильно проявляются на лице человека, который говорит.

В настоящее время специалисты Google и исследователи Оксфордского университета готовят использована ими для обучения искусственного интеллекта набора данных для создания общественного формирования ресурса. Этим ресурсом могут пользоваться все разработчики автоматизированных систем, чтение по губам, и в частности группы Яниса Ассаеля (Яннис Assael), которая занимается разработкой системы LipNet. И, весьма вероятно, что все эти усилия, в конечном итоге, могут привести к тому, что домохозяйства и потребительских электронных устройствах, способных понять то, что мы им говорим, читая это в наши уста.


banner14

Категория: Hi-Tech