Beszélj velem számítógéppel: A hangvezérlés elindul

Ha váratlan csomagok kezdenek megjelenni az ajtóban, érdemes szót ejtenie valamelyik intelligens eszközéről.

A hónap elején egy hatéves Dallasban kérdezte családját Amazon Echo okos hangszóró babaházhoz. És Alexa, az Amazon Siri-szerű mesterséges asszisztense, azonnal rendelt egyet a házukba.

Egy San Diego -i televíziós híradó felvette a történetet, és akaratlanul is megismételte, amikor az egyik híradó így kommentálta: „Szeretem a kislányt, mondván:„ Alexa rendeljen nekem egy babaházat ”.” Ezt meghallgatva számos más Amazon -eszköz San Diego -beli otthonokban megpróbált több babaházat vásárolni.

A CW6 San Diego híradása Alexa véletlen babaházvásárlásáról.

{youtube}oI2KLIULjXc{/youtube}

A történet szomorúan ismerősnek tűnhet mindenkinek, aki megpróbált beszélgetni az Apple Siri -jével vagy a Microsoft Cortanájával. Eszközeink nagyon jól tudnak minket hallgatni, de ez nem mindig jelenti azt, hogy megértik.

A Microsoft kutatói nemrég ezt potenciális problémaként jelölték meg a mai beszédfelületeken: „intelligens” asszisztensként forgalmazzák őket, okos tréfákkal és világi ismeretekkel, mégis gyakran elkeserítenek minket a józan ész hiányával.


belső feliratkozási grafika


egy kis tanulmány, a kutatók azt találták, hogy azok az emberek, akik idővel tovább beszéltek digitális asszisztenseikkel, azok voltak, akik a legalacsonyabb elvárásokkal kezdtek.

Mit csinál valójában a hangfelület?

Amikor hangfelülethez beszél, a következőket kell tennie:

  • „Hallja” a hangját, és különböztesse meg a háttérzajtól
  • találja ki, hol kezdődik és végződik minden szó, figyelmen kívül hagyva az „umms” és az „ahhs” szavakat
  • illessze össze minden szó hangját a szótár egyik szavával, és válassza ki a megfelelőt a kontextusból, ha vannak homofonok
  • helyesen értelmezze az egész mondat jelentését
  • értelmes és hasznos választ generáljon, amely megfelel a kérésének.

Ezek mindegyike összetett technikai kihívás, és a különböző technológiai vállalatok előrehaladást értek el különböző területeken.

A Google Asszisztens jó válaszokat tud adni a kérések széles skálájára, mert ha a Google szolgáltatásait használja, a Google internetes adataiból és személyes tevékenységeiből profitál.

Az Amazon Echo különösen jól hallja kéréseit egy zajos helyiségből, a zajszűrő távoli mikrofon tömbnek köszönhetően. Természetesen az Amazonon keresztül is jó vásárolni.

Az elmúlt néhány évben a hanginterfészek sokkal jobban megértették a mindennapi vagy „természetes” beszédet, nem pedig csak gonosz és gondosan megfogalmazott parancsokat. Még mindig jobban tudják kezelni az egyszerű kérdéseket, mint például: „ki játszik az Australian Openen?”, És hajlamosak bonyolultabb kérésekkel is küzdeni, mint például „ki játszik idén először az Australian Openen?”, És a nyomon követés kérdéseket, például „esni fog a döntő alatt?”.

Az angol nyelvtől eltérő nyelvek esetében még ennél is vegyesebb a helyzet: míg a Siri több mint 40 nyelvet és nyelvjárást támogat, addig az Alexa eddig csak angol és német nyelven érhető el. De mindezek a jellemzők folyamatosan javulnak.

Ahol a hangfelületek dadognak

Így a hanginterfészek hamarosan átveszik az összes technológiánkat, ahogy azt a filmben megjósoljuk Neki? A Gartner, technológiakutató cég, előrejelzése hogy jövőre a technológiával folytatott interakcióink 30% -a hangos interfészekkel folytatott beszélgetés lesz.

A hanginterfészeknek azonban vannak korlátai, és nem mindegyiket lehet jobb technológiával megoldani.

A hang a Spike Jonze Her című filmjében a technológiával való kapcsolattartás központi eszköze.

{youtube}ne6p6MfLBxc{/youtube}

A zajszennyezés az egyik fő akadály. Eszköze meg tudja különböztetni a mondanivalóját a körülötte lévő háttérzajtól? A technológia segíthet ebben, beleértve a zajcsökkentést, a személyre szabott hangfelismerést és az ajakolvasást.

De mi a helyzet a háttérzajjal, amelyet az okoseszközével beszélgetve hoz létre másoknak? Képzelje el, hogy egy személy ül melletted az irodában - vagy repülőgépen -, miközben Siri -vel beszélget, miközben olvasni próbál, és láthatja, hogy a hangfelületek miért nem mindig elfogadhatóak társadalmilag.

Egy másik problémacsoport a hangfelületek mentális igényeiből származik. A hang alapú rendszer használatának megtanulása nehéz lehet, különösen, ha nincs képernyő, mint az Amazon Echo esetében.

Ha valaha is hívott bankot vagy telefontársaságot, akkor tudja, hogy a koncentráció és az unalom nyomorúságos kombinációja abból fakad, hogy egy szintetizált hanglistát hallgat, amikor megvárja a kívánt lehetőséget, és megpróbálja nem keverni őket. fel. A hagyományos grafikus interfészek elkerülik ezt a problémát azáltal, hogy megmutatják a rendelkezésre álló lehetőségeket, és lehetővé teszik, hogy gyorsan koppintson a választott lehetőségre.

Miután megtanulta a hangutasításokat, használatuk zavaró lehet. A kutatók azt találták, hogy a hangutasítások kisodorja gondolatmenetét több, mint egér és billentyűzet.

Ez különösen veszélyes az autóba épített hangfelületekre: a Utah-i Egyetem tanulmányaiból kiderült, hogy a járművezetők akár 27 másodpercig elvonja a figyelmét hangutasítások használata után.

A Utahi Egyetem / AAA Alapítvány a közlekedésbiztonságért, a járművezetők figyelmét elutasító kutatás.

{vimeo}108281698{/vimeo}

Megtalálja a hangját?

Tehát a hangfelületek valószínűleg nem veszik át teljesen az irányítást, de hasznos réseket találnak az életünkben. Már gyakoriak az autókban, ahol a technológia javulásával remélhetőleg kevésbé zavaróak lesznek.

A konyhában megkérheti Alexát, hogy beszéljen meg egy receptet, vagy frissítse a bevásárló listát, miközben a keze főzéssel van elfoglalva. A virtuális és kiterjesztett valóságban a hangfelületek lehetővé teszik a rendszer vezérlését, amikor egyáltalán nem látja a kezét.

A nyelvtanulás során a kiejtés gyakorlására használhatók. A legfontosabb, hogy a hanginterfészek segítik a mozgáskorlátozott, RSI vagy diszlexiás felhasználókat fogyatékosságuk leküzdésében.

A hanginterfészek régóta várt technológia, és jó okkal gondolhatjuk, hogy végre eljött az ő idejük. Ne feledje, hogy még nem olyan okosak, mint amilyennek hangzanak. És ha PIN -kódot szeretne megadni a hangos vásárlásokhoz, ha gyerekek vannak a közelben.

A beszélgetés

A szerzőről

Fraser Allison, PhD jelölt az ember-számítógép interakcióban, Melbourne Egyetem

Ezt a cikket eredetileg közzétették A beszélgetés. Olvassa el a eredeti cikk.

Kapcsolódó elemek

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market és Amazon