Изкуственият интелект на Microsoft разбира устна реч по-добре от човек

Системата за машинно разпознаване на устна реч по време на телефонен разговор вече се справя с тази задача по-добре от човек. Грешките на софтуера са спаднали до 5,1% – такова е и количеството, допусканo от екип от обучени специалисти. Новината бе съобщена в блога на компанията от Зудонг Хуанг, нейния главен специалист в областта на гласовото разпознаване.

Редно е да се отбележи, че хората, които не са преминали специална подготовка, разпознават устна реч с дял на грешките от около 5,9 на сто. През септември 2016 г. изкуственият интелект на Microsoft допускаше 6,3% грешки, което тогава представляваше рекорд в областта на машинната транскрибция. Още през октомври тяхното количество спадна до средностатистическите 5,9%.

Под грешки, очаквано, се разбира количеството думи, които са транскрибирани неправилно при прослушване на телефонен разговор. За проверка на системата в Microsoft използват стандартен тест за правилно разбиране на реч Switchboard, широко се използва в областта, включително от компании като IBM и Google.

Споменатите тренирани специалисти могат да спят спокойно, тъй като изкуственият интелект обаче засега се справя добре само с „механичната“ част на тяхната работа – разпознаване на устна и писмена реч. Все още софтуерът на разбира смисъла на думите. Също така системата транскрибира с висока точност при отчетливо звучащ глас, без странични шумове. При наличие на такива смутители процентът на грешките нараства.

Преди две десетилетия количеството на неправилно разпознати думи от страна на компютри бе над 43 на сто, припомня онлайн изданието CNews. Настоящият прогрес в тази насока в голяма степен стана възможен чрез използването на т.нар. дълбоки невронни мрежи. Те се считат за ключова технология и при разработката системи за компютърно зрение и др. Тези мрежи се състоят от няколко слоя. Разработчиците от Microsoft са разработили нов вид връзки между тях, което им позволи да спечелят конкурса за компютърно зрение ImageNet през 2016 г.

Крачка напред в тази насока стана и използването на графични процесори (GPU). Първоначално те бяха създадени за работа с компютърна графика, но на практика са добър интсрумент за обработка на сложни алгоритми, като този използван за разпознаване на човешки глас. За бързо „трениране“ на такива системи и изпробване на нови идеи от компанята използват обикновени Azure GPU.

Twitter icon Facebook icon
Този сайт използва бисквитки (cookies). Ако желаете можете да научите повече тук.