Tətbiqlərin sayı və səsli interfeyslərin əhəmiyyəti sürətlə artır
Texnologiya

Tətbiqlərin sayı və səsli interfeyslərin əhəmiyyəti sürətlə artır

Oreqon ştatının Portlend şəhərində bir amerikalı ailə bu yaxınlarda öyrəndi ki, Aleksin səsli köməkçisi onların şəxsi söhbətlərini yazıb və dostlarına göndərib. Medianın Danielle adlandırdığı evin sahibi jurnalistlərə deyib ki, o, “bir daha heç vaxt o cihazı qoşmayacaq, çünki ona etibar etmək olmaz”.

AlexaABŞ-ın on milyonlarla evində Echo (1) dinamikləri və digər qadcetlər tərəfindən təmin edilən , istifadəçi tərəfindən onun adını və ya "zəng sözünü" eşitdikdə qeyd etməyə başlayır. Bu o deməkdir ki, televiziya reklamında “Alexa” sözü qeyd olunsa belə, cihaz qeyd etməyə başlaya bilər. Aparat distribyutoru Amazon deyir ki, bu vəziyyətdə də məhz belə oldu.

“Söhbətin qalan hissəsi səsli köməkçi tərəfindən mesaj göndərmək əmri kimi şərh edilib”, - deyə şirkətdən bildirilib. "Bir anda Alexa ucadan soruşdu: "Kimə?" Taxta döşəmə ilə bağlı ailə söhbətinin davamı maşın tərəfindən müştərinin əlaqə siyahısında bir element kimi qəbul edilməli idi. Ən azından Amazon belə düşünür. Beləliklə, tərcümə bir sıra qəzalara endirilir.

Bununla belə, narahatlıq qalır. Çünki nədənsə hələ də özümüzü rahat hiss etdiyimiz evdə bir növ “səs rejiminə” daxil olmalıyıq, nə dediyimizə, televizorun nə yayımladığına və təbii ki, sinəsindəki bu yeni dinamikin nə olduğunu izləməliyik. çekmece deyir. bizə.

buna baxmayaraq Texnoloji qüsurlara və məxfiliklə bağlı narahatlıqlara baxmayaraq, Amazon Echo kimi cihazların populyarlığının artması ilə insanlar öz səslərindən istifadə edərək kompüterlərlə əlaqə qurmaq fikrinə alışmağa başlayırlar..

Amazon şirkətinin texniki direktoru Verner Vogelsin 2017-ci ilin sonunda AWS re:Invent sessiyası zamanı qeyd etdiyi kimi, texnologiya indiyədək kompüterlərlə qarşılıqlı əlaqə imkanlarımızı məhdudlaşdırıb. Klaviaturadan istifadə edərək açar sözləri Google-a daxil edirik, çünki bu hələ də maşına məlumat daxil etməyin ən ümumi və asan yoludur.

Vogels bildirib. -

böyük dörd

Telefonda Google axtarış sistemindən istifadə edərkən, yəqin ki, uzun müddət əvvəl danışmaq üçün zəng olan bir mikrofon işarəsini gördük. Bu Google indi (2), axtarış sorğusunu diktə etmək, səslə mesaj daxil etmək və s. üçün istifadə edilə bilər. Son illərdə Google, Apple və Amazon xeyli təkmilləşib. səsin tanınması texnologiyası. Alexa, Siri və Google Assistant kimi səs köməkçiləri təkcə səsinizi yazmır, həm də onlara nə dediyinizi başa düşür və suallara cavab verir.

Google Now bütün Android istifadəçiləri üçün pulsuzdur. Tətbiq, məsələn, Google xəritələrində həyəcan siqnalı qura, hava proqnozunu yoxlaya və marşrutu yoxlaya bilər. Google Now dövlətlərinin danışıq uzadılması Google köməkçisi () – avadanlığın istifadəçisinə virtual yardım. Əsasən mobil və ağıllı ev cihazlarında mövcuddur. Google Now-dan fərqli olaraq, o, ikitərəfli mübadilədə iştirak edə bilər. Köməkçi 2016-cı ilin may ayında Google mesajlaşma proqramı Allo-nun bir hissəsi kimi, həmçinin Google Home səs dinamikində debüt etdi (3).

3. Google Əsas səhifə

IOS sisteminin də öz virtual köməkçisi var, SiriApple-ın iOS, watchOS, tvOS homepod və macOS əməliyyat sistemlərinə daxil olan proqramdır. Siri iOS 5 və iPhone 4s ilə 2011-ci ilin oktyabrında Let's Talk iPhone konfransında debüt etdi.

Proqram təminatı danışıq interfeysinə əsaslanır: o, istifadəçinin təbii nitqini tanıyır (iOS 11-də əmrləri əl ilə daxil etmək də mümkündür), suallara cavab verir və tapşırıqları yerinə yetirir. Maşın öyrənməsinin tətbiqi sayəsində zamanla köməkçi şəxsi üstünlükləri təhlil edir istifadəçiyə daha uyğun nəticələr və tövsiyələr təqdim etmək. Siri daimi İnternet bağlantısı tələb edir - burada əsas məlumat mənbələri Bing və Wolfram Alpha-dır. iOS 10 üçüncü tərəf uzantıları üçün dəstək təqdim etdi.

Böyük dördlükdən başqa biri Cortana. Bu, Microsoft tərəfindən yaradılmış ağıllı şəxsi köməkçidir. O, Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android və iOS platformalarında dəstəklənir. Cortana ilk dəfə 2014-cü ilin aprelində San-Fransiskoda Microsoft Build Developer Konfransında təqdim edildi. Proqramın adı Halo oyun seriyasından bir personajın adından gəlir. Cortana ingilis, italyan, ispan, fransız, alman, çin və yapon dillərində mövcuddur.

Artıq qeyd olunan proqramın istifadəçiləri Alexa onlar dil məhdudiyyətlərini də nəzərə almalıdırlar - rəqəmsal köməkçi yalnız ingilis, alman, fransız və yapon dillərində danışır.

Amazon Virtual Assistant ilk dəfə Amazon Lab126 tərəfindən hazırlanmış Amazon Echo və Amazon Echo Dot smart dinamiklərində istifadə edilmişdir. O, səslə qarşılıqlı əlaqəni, musiqini oxutmağı, işlər siyahısı yaratmağı, həyəcan ayarını, podkast axınını, audiokitabı oxutmağı və real vaxtda hava, trafik, idman və xəbərlər kimi digər xəbər məlumatlarını təmin edir (4). Alexa ev avtomatlaşdırma sistemi yaratmaq üçün bir çox ağıllı cihazları idarə edə bilər. Amazon mağazasında rahat alış-veriş etmək üçün də istifadə edilə bilər.

4. İstifadəçilər Echo-dan nə üçün istifadə edirlər (Araşdırmalara görə)

İstifadəçilər Alexa "bacarıqlarını" (), üçüncü tərəflər tərəfindən hazırlanmış, daha çox digər parametrlərdə hava və audio proqramları kimi proqramlar kimi adlandırılan əlavə xüsusiyyətləri quraşdıraraq Alexa təcrübəsini təkmilləşdirə bilərlər. Əksər Alexa cihazları virtual köməkçinizi oyandırma parolu ilə aktivləşdirməyə imkan verir.

Amazon bu gün ağıllı dinamiklər bazarında hökmranlıq edir (5). 2018-ci ilin martında yeni xidməti təqdim edən IBM ilk dördlüyə daxil olmağa çalışır Watsonun köməkçisi, səsli idarəetmə ilə öz virtual köməkçi sistemlərini yaratmaq istəyən şirkətlər üçün nəzərdə tutulmuşdur. IBM həllinin üstünlüyü nədir? Şirkət nümayəndələrinin fikrincə, ilk növbədə, fərdiləşdirmə və məxfiliyin qorunması üçün daha böyük imkanlar.

Birincisi, Watson Assistant markalı deyil. Şirkətlər bu platformada öz həllərini yarada və onları öz brendləri ilə etiketləyə bilərlər.

İkincisi, onlar öz məlumat dəstlərindən istifadə edərək öz köməkçi sistemlərini məşq edə bilərlər, IBM-in dediyinə görə, bu, digər VUI (səsli istifadəçi interfeysi) texnologiyalarına nisbətən həmin sistemə funksiyalar və əmrlər əlavə etməyi asanlaşdırır.

Üçüncüsü, Watson Assistant IBM-ə istifadəçi fəaliyyəti haqqında məlumat vermir - platformada həllər hazırlayanlar yalnız qiymətli məlumatları özlərində saxlaya bilərlər. Bu vaxt, məsələn, Alexa ilə cihaz quran hər kəs, qiymətli məlumatlarının Amazonda bitəcəyini bilməlidir.

Watson Assistant artıq bir neçə tətbiqə malikdir. Sistemdən, məsələn, Maserati konsept avtomobili üçün səs köməkçisi yaradan Harman tərəfindən istifadə edilmişdir (6). Münhen hava limanında bir IBM köməkçisi sərnişinlərin hərəkət etməsinə kömək etmək üçün Pepper robotunu gücləndirir. Üçüncü nümunə, səs texnologiyasının ağıllı ev sayğacında istifadə edildiyi Chameleon Technologies-dir.

6. Maserati konsept avtomobilində Watson Assistant

Əlavə etmək lazımdır ki, burada əsas texnologiya da yeni deyil. Watson Assistant mövcud IBM məhsulları, Watson Conversation və Watson Virtual Agent üçün şifrələmə imkanlarını, həmçinin dil təhlili və söhbət üçün API-ləri ehtiva edir.

Amazon təkcə ağıllı səs texnologiyasında lider deyil, həm də onu birbaşa biznesə çevirir. Bununla belə, bəzi şirkətlər Echo inteqrasiyasını daha əvvəl sınaqdan keçiriblər. BI və analitika sənayesində fəaliyyət göstərən Sisense şirkəti 2016-cı ilin iyul ayında Echo inteqrasiyasını təqdim etdi. Öz növbəsində, startap Roxy qonaqpərvərlik sənayesi üçün özünün səslə idarə olunan proqram və aparatını yaratmağa qərar verdi. Bu ilin əvvəlində Synqq qeydlər və təqvim qeydlərini klaviaturada yazmadan əlavə etmək üçün səs və təbii dil emalından istifadə edən qeyd yazma proqramı təqdim etdi.

Bu kiçik müəssisələrin hamısının yüksək ambisiyaları var. Bununla belə, ən çox öyrəndilər ki, hər istifadəçi öz məlumatlarını səsli rabitə platformalarının qurulmasında ən vacib oyunçular olan Amazon, Google, Apple və ya Microsoft-a ötürmək istəmir.

Amerikalılar almaq istəyirlər

2016-cı ildə səsli axtarış bütün Google mobil axtarışlarının 20%-ni təşkil edib. Bu texnologiyadan gündəlik istifadə edən insanlar onun ən böyük üstünlükləri arasında onun rahatlığını və çoxşaxəliliyini qeyd edirlər. (məsələn, avtomobil idarə edərkən axtarış sistemindən istifadə etmək imkanı).

Visiongain analitikləri ağıllı rəqəmsal köməkçilərin cari bazar dəyərini 1,138 milyard dollar qiymətləndirirlər.Belə mexanizmlər getdikcə daha çox olur. Gartner-ə görə, artıq 2018-ci ilin sonuna qədər Əlaqələrimizin 30%-i texnologiya ilə səs sistemləri ilə danışıqlar yolu ilə olacaq.

İngilis araşdırma şirkəti IHS Markit, süni intellektlə işləyən rəqəmsal köməkçilər bazarının bu ilin sonuna qədər 4 milyard cihaza çatacağını və 2020-ci ilə qədər bu rəqəmin 7 milyarda çatacağını təxmin edir.

eMarketer və VoiceLabs-ın hesabatlarına görə, 2017-ci ildə 35,6 milyon amerikalı ən azı ayda bir dəfə səslə idarəetmədən istifadə edib. Bu, əvvəlki illə müqayisədə təxminən 130% artım deməkdir. Təkcə rəqəmsal köməkçi bazarının 2018-də 23% böyüməsi gözlənilir. Bu o deməkdir ki, siz artıq onlardan istifadə edəcəksiniz. 60,5 milyon amerikalı, onların istehsalçıları üçün konkret pulla nəticələnəcək. RBC Capital Markets hesab edir ki, Alexa interfeysi 2020-ci ilə qədər Amazon üçün 10 milyard dollara qədər gəlir əldə edəcək.

Yuyun, bişirin, təmizləyin!

Səs interfeysləri məişət texnikası və məişət elektronikası bazarlarına getdikcə daha cəsarətlə daxil olur. Bunu artıq keçən ilki IFA 2017 sərgisi zamanı görmək olardı.Amerikanın Neato Robotics şirkəti, məsələn, Amazon Echo sistemi də daxil olmaqla, bir neçə ağıllı ev platformasından birinə qoşulan robot tozsoranı təqdim etdi. Echo smart dinamiki ilə danışmaqla siz maşına bütün evinizi günün və ya gecənin müəyyən vaxtlarında təmizləməyi tapşıra bilərsiniz.

Sərgidə Türkiyənin “Vestel” şirkəti tərəfindən “Toshiba” brendi altında satılan smart televizorlardan tutmuş, Almaniyanın “Beurer” firmasının qızdırılan yorğanlara qədər, səslə aktivləşdirilən digər məhsullar da nümayiş etdirilib. Bu elektron cihazların bir çoxunu smartfonlar vasitəsilə uzaqdan da aktivləşdirmək olar.

Bununla belə, Bosch nümayəndələrinin fikrincə, ev köməkçisi variantlarından hansının dominant olacağını söyləmək hələ tezdir. IFA 2017 sərgisində Alman texniki qrupu Echo-ya qoşulan paltaryuyan maşınları (7), sobaları və qəhvə maşınlarını nümayiş etdirdi. Bosch həmçinin öz cihazlarının gələcəkdə Google və Apple səs platformaları ilə uyğun olmasını istəyir.

7. Amazon Echo-ya qoşulan Bosch paltaryuyan maşını

Fujitsu, Sony və Panasonic kimi şirkətlər öz süni intellektə əsaslanan səs köməkçisi həllərini inkişaf etdirirlər. Sharp bu texnologiyanı bazara daxil olan sobalara və kiçik robotlara əlavə edir. Nippon Telegraph & Telephone səslə idarə olunan süni intellekt sistemini uyğunlaşdırmaq üçün avadanlıq və oyuncaq istehsalçılarını işə götürür.

Köhnə konsepsiya. Nəhayət onun vaxtı gəldi?

Əslində, Voice User Interface (VUI) konsepsiyası onilliklər ərzində mövcuddur. İllər əvvəl Star Trek və ya 2001: A Space Odyssey filminə baxan hər kəs yəqin ki, təxminən 2000-ci ildə kompüterləri səsimizlə idarə edəcəyimizi gözləyirdi. Həmçinin, bu tip interfeysin potensialını görənlər təkcə elmi fantastika yazıçıları deyildi. 1986-cı ildə Nielsen tədqiqatçıları İT mütəxəssislərindən 2000-ci ilə qədər istifadəçi interfeyslərində ən böyük dəyişikliyin nə olacağını düşündüklərini soruşdular. Onlar ən çox səs interfeyslərinin inkişafına işarə edirdilər.

Belə bir həllə ümid etmək üçün əsaslar var. Şifahi ünsiyyət, nəhayət, insanların şüurlu şəkildə fikir mübadiləsi aparmasının ən təbii yoludur, ona görə də ondan insan-maşın qarşılıqlı əlaqəsi üçün istifadə etmək indiyədək ən yaxşı həll yolu kimi görünür.

adlı ilk VUI-lərdən biri ayaqqabı qutusu, 60-cı illərin əvvəllərində IBM tərəfindən yaradılmışdır. Bu, bugünkü səs tanıma sistemlərinin öncülü idi. Bununla belə, VUI cihazlarının inkişafı hesablama gücünün məhdudiyyətləri ilə məhdudlaşdı. İnsan nitqini real vaxtda təhlil etmək və şərh etmək çox səy tələb edir və bunun həqiqətən mümkün olduğu nöqtəyə çatmaq üçün əlli ildən çox vaxt lazım idi.

Səs interfeysi olan qurğular 90-cı illərin ortalarında kütləvi istehsalda görünməyə başladı, lakin populyarlıq qazanmadı. Səslə idarə olunan ilk telefon idi Philips Spark1996-cı ildə buraxılmışdır. Bununla belə, bu innovativ və istifadəsi asan cihaz texnoloji məhdudiyyətlərdən azad deyildi.

Səs interfeysi formaları ilə təchiz edilmiş digər telefonlar (RIM, Samsung və ya Motorola kimi şirkətlər tərəfindən yaradılmışdır) istifadəçilərə səslə zəng etmək və ya mətn mesajları göndərmək imkanı verən müntəzəm olaraq bazara çıxır. Onların hamısı isə konkret əmrləri əzbərləməyi və o dövrün cihazların imkanlarına uyğunlaşdırılmış məcburi, süni formada tələffüz etməyi tələb edirdi. Bu, çoxlu sayda səhvlər yaratdı və bu da öz növbəsində istifadəçilərin narazılığına səbəb oldu.

Bununla belə, biz indi kompüter öyrənməsi və süni intellektdəki irəliləyişlərin texnologiya ilə qarşılıqlı əlaqənin yeni bir yolu kimi söhbət potensialını açdığı yeni hesablama dövrünə qədəm qoyuruq (8). Səslə qarşılıqlı əlaqəni dəstəkləyən cihazların sayı VUI-nin inkişafına böyük təsir göstərən mühüm amilə çevrilmişdir. Bu gün dünya əhalisinin demək olar ki, 1/3-i artıq bu tip davranışlar üçün istifadə edilə bilən smartfonlara sahibdir. Görünür, əksər istifadəçilər nəhayət öz səs interfeyslərini uyğunlaşdırmağa hazırdırlar.

8. Səs interfeysinin inkişafının müasir tarixi

Bununla belə, kompüterlə sərbəst danışa bilməmişdən əvvəl, A Space Odyssey qəhrəmanları kimi, bir sıra problemlərin öhdəsindən gəlməliyik. Maşınlar hələ də linqvistik nüansları idarə etməkdə çox yaxşı deyil. Bundan başqa bir çox insanlar hələ də axtarış sisteminə səsli əmrlər verməkdən narahatdırlar.

Statistika göstərir ki, səsli köməkçilər əsasən evdə və ya yaxın dostlar arasında istifadə olunur. Müsahibə edilənlərin heç biri ictimai yerlərdə səsli axtarışdan istifadə etdiyini etiraf etməyib. Lakin bu texnologiyanın yayılması ilə bu blokadanın aradan qalxacağı ehtimal edilir.

texniki cəhətdən çətin sual

Sistemlərin (ASR) qarşılaşdığı problem nitq siqnalından faydalı məlumatların çıxarılması və onu insan üçün müəyyən məna kəsb edən müəyyən bir sözlə əlaqələndirilməsidir. Çıxarılan səslər hər dəfə fərqlidir.

Nitq siqnalının dəyişkənliyi onun təbii mülkiyyətidir, bunun sayəsində biz, məsələn, vurğu və ya intonasiyanı tanıyırıq. Nitqin tanınması sisteminin hər bir elementinin özünəməxsus vəzifəsi var. İşlənmiş siqnal və onun parametrləri əsasında dil modeli ilə əlaqəli olan akustik model yaradılır. Tanınma sistemi, işlədiyi lüğətin ölçüsünü təyin edən kiçik və ya çox sayda nümunələr əsasında işləyə bilər. Onlar ola bilər kiçik lüğətlər ayrı-ayrı sözləri və ya əmrləri tanıyan sistemlər vəziyyətində və böyük verilənlər bazaları dil toplusunun ekvivalentini ehtiva edən və dil modelini (qrammatikasını) nəzərə alan.

İlk növbədə səs interfeyslərinin üzləşdiyi problemlər nitqi düzgün başa düşmək, məsələn, bütün qrammatik ardıcıllıqların tez-tez buraxıldığı, linqvistik və fonetik səhvlər, xətalar, boşluqlar, nitq qüsurları, omonimlər, əsassız təkrarlar və s.. Bütün bu ACP sistemləri tez və etibarlı işləməlidir. Ən azından gözləntilər bunlardır.

Çətinliklərin mənbəyi də tanınma sisteminin girişinə daxil olan tanınan nitqdən başqa akustik siqnallardır, yəni. hər cür müdaxilə və səs-küy. Ən sadə halda, onlara ehtiyacınız var süzün. Bu tapşırıq rutin və asan görünür - axırda müxtəlif siqnallar süzülür və hər bir elektronika mühəndisi belə bir vəziyyətdə nə edəcəyini bilir. Ancaq nitqin tanınmasının nəticəsi gözləntilərimizə cavab verərsə, bu, çox diqqətlə və diqqətlə aparılmalıdır.

Hazırda istifadə olunan filtrləmə nitq siqnalı ilə yanaşı, mikrofonun qəbul etdiyi xarici səs-küyü və onun tanınmasını çətinləşdirən nitq siqnalının özünün daxili xassələrini aradan qaldırmağa imkan verir. Bununla belə, təhlil edilən nitq siqnalına müdaxilə ... başqa nitq siqnalı, yəni, məsələn, ətrafdakı yüksək səsli müzakirələr olduqda, daha mürəkkəb texniki problem yaranır. Bu sual ədəbiyyatda sözdə tanınır. Bu, artıq sözdə mürəkkəb metodların istifadəsini tələb edir. dekonvolyutsiya siqnalı (açmaq).

Nitqin tanınması ilə bağlı problemlər bununla bitmir. Nəzərə almaq lazımdır ki, nitq çoxlu müxtəlif növ məlumat daşıyır. İnsan səsi sahibinin cinsini, yaşını, müxtəlif xarakterlərini və ya sağlamlığının vəziyyətini göstərir. Nitq siqnalında tapılan xarakterik akustik hadisələrə əsaslanaraq müxtəlif xəstəliklərin diaqnozu ilə məşğul olan geniş biotibbi mühəndislik şöbəsi var.

Nitq siqnalının akustik təhlilinin əsas məqsədinin danışanı müəyyən etmək və ya onun iddia etdiyi şəxs olduğunu yoxlamaq (açar, parol və ya PUK kodu əvəzinə səs) olan proqramlar da var. Bu, xüsusilə ağıllı bina texnologiyaları üçün vacib ola bilər.

Nitqin tanınması sisteminin birinci komponentidir mikrofon. Bununla belə, mikrofon tərəfindən alınan siqnal adətən az istifadə olunur. Tədqiqatlar göstərir ki, səs dalğasının forması və gedişi insandan, nitqin sürətindən və qismən həmsöhbətin əhval-ruhiyyəsindən asılı olaraq çox dəyişir - azacıq da olsa, danışıq əmrlərinin özünü əks etdirir.

Buna görə də siqnal düzgün işlənməlidir. Müasir akustika, fonetika və kompüter elmləri birlikdə nitq siqnalını emal etmək, təhlil etmək, tanımaq və anlamaq üçün istifadə edilə bilən zəngin alətlər dəstini təmin edir. Siqnalın dinamik spektri, sözdə dinamik spektroqramlar. Onları əldə etmək olduqca asandır və dinamik spektroqram şəklində təqdim olunan nitqi, təsvirin tanınmasında istifadə olunanlara bənzər üsullardan istifadə etməklə tanınmaq nisbətən asandır.

Sadə nitq elementləri (məsələn, əmrlər) bütün spektroqramların sadə oxşarlığı ilə tanınır. Məsələn, səslə aktivləşdirilən mobil telefon lüğəti yalnız bir neçə onlarla və bir neçə yüz söz və ifadədən ibarətdir, adətən onları asanlıqla və səmərəli şəkildə müəyyən etmək üçün əvvəlcədən yığılmışdır. Bu, sadə nəzarət tapşırıqları üçün kifayətdir, lakin ümumi tətbiqi ciddi şəkildə məhdudlaşdırır. Sxemə uyğun qurulan sistemlər, bir qayda olaraq, yalnız səslərin xüsusi olaraq öyrədildiyi xüsusi dinamikləri dəstəkləyir. Beləliklə, sistemi idarə etmək üçün səsindən istifadə etmək istəyən yeni biri varsa, çox güman ki, qəbul edilməyəcək.

Bu əməliyyatın nəticəsi deyilir 2-Vt spektroqram, yəni ikiölçülü spektr. Bu blokda diqqət yetirməyə dəyər başqa bir fəaliyyət var - seqmentasiya. Ümumiyyətlə, söhbət fasiləsiz nitq siqnalını ayrı-ayrılıqda tanına bilən hissələrə bölməkdən gedir. Yalnız bu fərdi diaqnozlardan bütünün tanınması edilir. Bu prosedur zəruridir, çünki bir anda uzun və mürəkkəb nitqi müəyyən etmək mümkün deyil. Nitq siqnalında hansı seqmentləri ayırd etmək barədə artıq bütöv cildlər yazılmışdır, ona görə də biz indi seçilən seqmentlərin fonemlər (səs ekvivalentləri), hecalar və ya ola bilsin allofonlar olması barədə qərar verməyəcəyik.

Avtomatik tanınma prosesi həmişə obyektlərin bəzi xüsusiyyətlərinə aiddir. Nitq siqnalı üçün müxtəlif parametrlərin yüzlərlə dəsti sınaqdan keçirilmişdir tanınan çərçivələrə bölünür və sahib olmaq seçilmiş xüsusiyyətlərbu çərçivələr tanınma prosesində təqdim olunduğu üçün biz yerinə yetirə bilərik (hər çərçivə üçün ayrıca) təsnifat, yəni. çərçivəyə gələcəkdə onu təmsil edəcək identifikatorun təyin edilməsi.

Növbəti mərhələ çərçivələrin ayrı-ayrı sözlərə yığılması - ən tez-tez sözdə əsaslanır. gizli Markov modellərinin modeli (HMM-). Sonra sözlərin montajı gəlir tam cümlələr.

İndi bir anlıq Alexa sisteminə qayıda bilərik. Onun nümunəsi insanın çox mərhələli maşın “dərk edilməsi” prosesini göstərir - daha dəqiq desək: onun verdiyi əmr və ya verilən sual.

Sözləri başa düşmək, mənasını anlamaq və istifadəçi niyyətini başa düşmək tamamilə fərqli şeylərdir.

Buna görə də, növbəti addım vəzifəsi olan NLP modulunun () işidir istifadəçi niyyətinin tanınması, yəni. əmrin/sualın deyildiyi kontekstdəki mənası. Əgər niyyət müəyyənləşsə, deməli sözdə bacarıq və bacarıqların təyin edilməsi, yəni ağıllı köməkçi tərəfindən dəstəklənən xüsusi xüsusiyyət. Hava ilə bağlı sual yarandıqda, hava məlumat mənbələri çağırılır, nitqdə işlənməlidir (TTS - mexanizm). Nəticədə istifadəçi verilən sualın cavabını eşidir.

Səs? Qrafika sənəti? Və ya bəlkə hər ikisi?

Ən məşhur müasir qarşılıqlı sistemlər adlı vasitəçiyə əsaslanır qrafik istifadəçi interfeysi (qrafik interfeys). Təəssüf ki, GUI rəqəmsal məhsulla qarşılıqlı əlaqə qurmağın ən bariz yolu deyil. Bu tələb edir ki, istifadəçilər əvvəlcə interfeysdən necə istifadə etməyi öyrənsinlər və hər bir sonrakı qarşılıqlı əlaqədə bu məlumatı yadda saxlasınlar. Bir çox hallarda səs daha rahatdır, çünki siz sadəcə cihazla danışaraq VUI ilə əlaqə saxlaya bilərsiniz. İstifadəçiləri müəyyən əmrləri və ya qarşılıqlı əlaqə üsullarını yadda saxlamağa və yadda saxlamağa məcbur etməyən interfeys daha az problem yaradır.

Əlbəttə ki, VUI-nin genişləndirilməsi daha çox ənənəvi interfeyslərdən imtina etmək demək deyil - daha doğrusu, qarşılıqlı əlaqənin bir neçə üsulunu birləşdirən hibrid interfeyslər mövcud olacaq.

Səs interfeysi mobil kontekstdə bütün tapşırıqlar üçün uyğun deyil. Bununla biz maşın sürən bir dostumuza zəng edəcəyik və hətta ona SMS göndərəcəyik, lakin son köçürmələri yoxlamaq çox çətin ola bilər - sistemə () ötürülən və sistem (sistem) tərəfindən yaradılan məlumatların miqdarına görə. Rachel Hinman "Mobile Frontier" kitabında təklif etdiyi kimi, VUI-dən istifadə giriş və çıxış məlumatlarının miqdarının az olduğu tapşırıqları yerinə yetirərkən ən effektiv olur.

İnternetə qoşulmuş smartfon rahat, həm də əlverişsizdir (9). İstifadəçi hər dəfə nəsə almaq və ya yeni xidmətdən istifadə etmək istəyəndə başqa proqram yükləməli və yeni hesab yaratmalıdır. Burada səs interfeyslərinin istifadəsi və inkişafı üçün sahə yaradılmışdır. Mütəxəssislər istifadəçiləri çoxlu müxtəlif proqramlar quraşdırmağa və ya hər bir xidmət üçün ayrıca hesablar yaratmağa məcbur etmək əvəzinə, VUI-nin bu çətin işlərin yükünü süni intellektlə işləyən səs köməkçisinin üzərinə atacağını deyirlər. Gərgin işlərlə məşğul olmaq onun üçün əlverişli olacaq. Biz ona ancaq əmr verəcəyik.

9. Ağıllı telefon vasitəsilə səsli interfeys

Bu gün internetə sadəcə bir telefon və kompüter qoşulmur. Ağıllı termostatlar, işıqlar, çaydanlar və bir çox digər IoT inteqrasiya edilmiş cihazlar da şəbəkəyə qoşulub (10). Beləliklə, ətrafımızda həyatımızı dolduran simsiz cihazlar var, lakin onların hamısı qrafik istifadəçi interfeysinə təbii olaraq uyğun gəlmir. VUI-dən istifadə onları mühitimizə asanlıqla inteqrasiya etməyə kömək edəcək.

10. Əşyaların İnterneti ilə səsli interfeys

Səsli istifadəçi interfeysinin yaradılması tezliklə əsas dizayner bacarığına çevriləcək. Bu, əsl problemdir - səs sistemlərinin tətbiqi zərurəti sizi fəal dizayna daha çox diqqət yetirməyə, yəni söhbətin hər bir mərhələsində istifadəçinin ilkin niyyətlərini başa düşməyə, ehtiyaclarını və gözləntilərini görməyə sövq edəcəkdir.

Səs məlumat daxil etmək üçün səmərəli üsuldur – o, istifadəçilərə öz şərtləri ilə sistemə tez əmrlər verməyə imkan verir. Digər tərəfdən, ekran informasiyanın göstərilməsinin səmərəli üsulunu təmin edir: o, sistemlərə eyni vaxtda böyük həcmdə informasiyanı nümayiş etdirməyə imkan verir, istifadəçilərin yaddaşına düşən yükü azaldır. Onların bir sistemdə birləşdirilməsinin ümidverici səslənməsi məntiqlidir.

Amazon Echo və Google Home kimi ağıllı dinamiklər ümumiyyətlə vizual ekran təqdim etmir. Orta məsafələrdə səsin tanınmasının dəqiqliyini əhəmiyyətli dərəcədə yaxşılaşdıraraq, onlar səssiz işləməyə imkan verir, bu da öz növbəsində onların çevikliyini və səmərəliliyini artırır - onlar hətta səslə idarə olunan smartfonları olan istifadəçilər üçün də arzuolunandır. Bununla belə, ekranın olmaması böyük bir məhdudiyyətdir.

Mümkün əmrlər haqqında istifadəçilərə məlumat vermək üçün yalnız səs siqnallarından istifadə edilə bilər və çıxışı ucadan oxumaq ən əsas tapşırıqlar istisna olmaqla, yorucu olur. Yemək bişirərkən səs əmri ilə taymer qurmaq əladır, lakin sizdən nə qədər vaxt qaldığını soruşmağa məcbur etmək lazım deyil. Müntəzəm hava proqnozu əldə etmək istifadəçi üçün yaddaş sınağına çevrilir, o, bir baxışda onları ekrandan götürməkdənsə, bütün həftə boyu bir sıra faktları dinləyib mənimsəməli olur.

Dizaynerlər artıq var hibrid həll, Echo Show (11), əsas Echo smart dinamikinə ekran ekranı əlavə etdi. Bu, avadanlığın funksionallığını xeyli genişləndirir. Bununla belə, Echo Show hələ də smartfon və planşetlərdə çoxdan mövcud olan əsas funksiyaları yerinə yetirmək qabiliyyətinə malik deyil. Məsələn, o (hələ) internetdə gəzə, rəyləri göstərə və ya Amazon alış-veriş səbətinin məzmununu göstərə bilməz.

Vizual displey mahiyyət etibarı ilə insanlara səsli məlumat verməkdən daha təsirli bir üsuldur. Səs prioriteti ilə dizayn səslə qarşılıqlı əlaqəni xeyli yaxşılaşdıra bilər, lakin uzun müddətdə qarşılıqlı əlaqə naminə vizual menyudan özbaşına istifadə etməmək bir əlin arxasına bağlanaraq döyüşmək kimi olacaq. Ucadan-uca ağıllı səs və displey interfeyslərinin yaxınlaşan mürəkkəbliyi səbəbindən tərtibatçılar interfeyslərə hibrid yanaşmanı ciddi şəkildə nəzərdən keçirməlidirlər.

Nitqin yaradılması və tanınması sistemlərinin səmərəliliyinin və sürətinin artırılması onlardan məsələn:

• hərbi (təyyarələrdə və ya helikopterlərdə səsli əmrlər, məsələn, F16 VISTA),

• avtomatik mətn transkripsiyası (nitqdən mətnə),

• interaktiv informasiya sistemləri (Prime Speech, səs portalları),

• mobil cihazlar (telefonlar, smartfonlar, planşetlər),

• robototexnika (Süni intellektlə birləşdirilmiş Cleverbot - ASR sistemləri),

• avtomobil (Mavi və Me kimi avtomobil komponentlərinin əllə idarə olunması),

• ev proqramları (ağıllı ev sistemləri).

Təhlükəsizlik üçün diqqətli olun!

Avtomobil, məişət texnikası, isitmə/soyutma və məişət təhlükəsizlik sistemləri və bir sıra məişət texnikası əksər hallarda süni intellektə əsaslanan səs interfeyslərindən istifadə etməyə başlayır. Bu mərhələdə milyonlarla söhbətdən əldə edilən məlumatlar maşınlara göndərilir hesablama buludları. Marketoloqların onlarla maraqlandığı aydındır. Və təkcə onlar deyil.

Symantec təhlükəsizlik ekspertlərinin son hesabatında səsli əmr istifadəçilərinə ev təhlükəsizlik sistemləri bir yana qalsın, qapı kilidləri kimi təhlükəsizlik xüsusiyyətlərinə nəzarət etməməyi tövsiyə edir. Eyni şey parolların və ya məxfi məlumatların saxlanmasına da aiddir. Süni intellektin və ağıllı məhsulların təhlükəsizliyi hələ kifayət qədər öyrənilməyib.

Evdəki cihazlar hər sözü dinlədikdə, sistemin sındırılması və sui-istifadə riski böyük narahatlıq doğurur. Təcavüzkar yerli şəbəkəyə və ya onunla əlaqəli e-poçt ünvanlarına giriş əldə edərsə, smart cihaz parametrləri dəyişdirilə və ya zavod parametrlərinə sıfırlana bilər ki, bu da qiymətli məlumatın itirilməsinə və istifadəçi tarixçəsinin silinməsinə səbəb olacaq.

Başqa sözlə, təhlükəsizlik mütəxəssisləri qorxurlar ki, səs və VUI ilə idarə olunan süni intellekt bizi potensial təhlükələrdən qoruyacaq və yad adam nəsə tələb edəndə ağzımızı bağlayacaq qədər ağıllı deyil.

Добавить комментарий