石川市-人類有能力識別他人的情緒,但機器人卻無法做到這一點。盡管機器人和虛擬代理完全具備通過語音與人進行通信的能力,但它們僅擅長處理邏輯指令,這極大地限制了人機交互(HRI)。因此,HRI的大量研究都是關于語音情感識別的。但是首先,我們如何描述情緒?
幸福,悲傷和憤怒之類的分類情感已為我們所很好地理解,但機器人很難記錄這些情感。研究人員專注于“維數情感”,它構成了自然語言中的漸進式情感過渡。“持續(xù)的多維情感可以幫助機器人捕捉說話者情感狀態(tài)的時間動態(tài),并相應地實時調整其互動和內容的方式,”科學技術高等研究院(JAIST)的Masashi Unoki教授解釋說。關于語音識別和處理。
研究表明,模擬人耳工作的聽覺感知模型可以生成所謂的“時間調制提示”,它可以忠實地捕捉維度情感的時間動態(tài)。然后可以使用神經網絡從這些線索中提取反映該時間動態(tài)的特征。然而,由于聽覺感知模型的復雜性和多樣性,特征提取部分變得非常具有挑戰(zhàn)性。
在神經網絡上發(fā)表的一項新研究中,Unoki教授和他的同事,包括來自天津大學的彭志超(主持研究),來自彭城實驗室的黨建武和來自JAIST的Masato Akagi教授,現在從認知神經科學的最新發(fā)現中獲得的靈感表明,我們的大腦通過對頻譜-時間調制的組合分析,形成了具有不同頻譜(即頻率)和時間分辨率的自然聲音的多種表示形式。因此,他們提出了一種新穎的功能,稱為多分辨率調制濾波耳蝸圖(MMCG),它以不同的分辨率組合了四個經過調制濾波的耳蝸圖(輸入聲音的時頻表示),以獲得時間和上下文調制提示。為了說明耳蝸圖的多樣性,研究人員設計了一種稱為“長短期記憶”(LSTM)的并行神經網絡體系結構,該模型對耳蝸圖的多分辨率信號的時間變化進行了建模,并對兩個耳蝸的兩個數據集進行了廣泛的實驗。自發(fā)的講話。
標簽: 神經科學
免責聲明:本文由用戶上傳,如有侵權請聯系刪除!