奈良科學技術研究所的研究人員基于強化學習原理開發(fā)了一種新的強迫癥模型。該模型可能會導致對強迫癥和相關疾病的更好治療
奈良科學技術研究所 (NAIST)、國際先進電信研究所和多摩川大學的科學家已經證明,強迫癥(OCD) 可以理解為強化和懲罰之間學習不平衡的結果。
在對其理論模型的經驗測試的基礎上,他們表明,將當前結果與過去行為聯系起來的大腦計算不對稱會導致行為紊亂。具體來說,當過去行為的記憶跟蹤信號因好結果和壞結果而衰減不同時,就會發(fā)生這種情況。在這種情況下,“好”表示結果比預期好,“壞”表示結果比預期差。這項工作有助于解釋強迫癥是如何發(fā)展的。
強迫癥是一種涉及焦慮的精神疾病,其特征是侵入性和重復性的想法,稱為強迫癥,再加上某些重復的行為,稱為強迫癥。強迫癥患者即使知道強迫觀念或強迫行為是不合理的,也常常感到無法改變行為。在嚴重的情況下,這些可能會使人無法過正常的生活。強迫行為,例如過度洗手或在離開家之前反復檢查門是否鎖好,是試圖暫時緩解強迫癥引起的焦慮。然而,迄今為止,人們對強化強迫觀念和強迫循環(huán)的方式還不是很清楚。
現在,由 NAIST 的研究人員領導的一個團隊使用強化學習理論來模擬與強迫癥相關的無序循環(huán)。在這個框架中,比預期更好的結果變得更有可能(正預測誤差),而比預期更差的結果被抑制(負預測誤差)。在強化學習的實施中,考慮延遲以及正/負預測誤差也很重要。一般來說,某個選擇的結果是在一定的延遲之后才可用的。因此,在一定的時間范圍內,應該將強化和懲罰分配給最近的選擇。這稱為信用分配,在強化學習理論中作為記憶軌跡實現。
理想情況下,對于正預測誤差和負預測誤差,過去動作的記憶跟蹤信號以相同的速度衰減。然而,這在離散神經系統(tǒng)中無法完全實現。通過模擬,NAIST 科學家發(fā)現,當與負面預測錯誤(
標簽:
免責聲明:本文由用戶上傳,如有侵權請聯系刪除!