石器時(shí)代寵物攻略(石器時(shí)代寵物大全) 經(jīng)濟(jì)管理出版社地址(經(jīng)濟(jì)管理出版社) 芒果tv怎么看湖南衛(wèi)視(芒果tv怎么看湖南衛(wèi)視回放) iPhone13如何在微店購物?(iphone13直營店可以直接買到嗎) 淘寶海外版叫什么(淘寶海外版) 幽門螺桿菌抗體(幽門螺桿菌抗體偏高是怎么回事) iOS7.1.1固件下載(ios7.0.4固件下載) 紙的來源視頻(紙的來源) QQ農(nóng)場怎么出售種子精華(QQ農(nóng)場種子精華) 玉兔出宮怎么畫(玉兔出宮怎么畫簡單) 光電信息科學(xué)與工程是干什么工作(光電信息科學(xué)與工程是干什么的) 卡通簽名頭像怎么制作(卡通簽名頭像怎么制作軟件) 比賽規(guī)則有哪些(比賽規(guī)則) 黑夾子的小妙用(黑夾子的小妙用有哪些) dear sir or madam要大寫嗎(dear sir or madam) 保衛(wèi)蘿卜——天際2攻略(保衛(wèi)蘿卜天際2關(guān)攻略) XP輸入法狀態(tài)條不見了怎么辦(xp輸入法不顯示) 語言能力描述范文100字(語言能力描述) 電腦顯示器總是黑屏怎么辦(電腦顯示器總是黑屏怎么辦恢復(fù)) 銀屑病怎么治療最好呢(治療銀屑病有什么好辦法) 東非高原動(dòng)物大遷徙(東非高原) 茶葉怎樣利用微波進(jìn)行了快速殺青處理(茶葉怎樣利用微波進(jìn)行了快速殺青處理工藝) Java:將數(shù)組排序并使用二分法判斷數(shù)組元素(java對(duì)二維數(shù)組排序) 密不可分的英語短語(密不可分的英語) 購買筆記本電腦時(shí)要注意什么(購買筆記本電腦時(shí)要注意什么事項(xiàng)) 工行如何設(shè)置信用卡分期付款 手續(xù)費(fèi)計(jì)算(工行如何設(shè)置信用卡分期付款,手續(xù)費(fèi)計(jì)算方式) 國粹苑物業(yè)電話(國粹苑) 冬季安全手抄報(bào)(冬季安全手抄報(bào)圖片簡單又漂亮) 研究表明大腦的不同區(qū)域的激活取決于音樂和語言的結(jié)構(gòu)復(fù)雜性 FDA 批準(zhǔn)首次血液檢測來預(yù)測孕婦先兆子癇 盆底疾病的早期診斷對(duì)健康至關(guān)重要 雨林植物可能是肺纖維化治療的關(guān)鍵 腹膜透析:對(duì)抗感染的新治療選擇 專家討論阿爾茨海默病新藥的利弊 有關(guān)莫氏顯微手術(shù)的八個(gè)常見問題解答 廉潔文化進(jìn)校園手抄報(bào)內(nèi)容50字(廉潔文化進(jìn)校園手抄報(bào)內(nèi)容) 褐變?nèi)橐菏亲钚碌南募沮厔?shì)但它們安全嗎 研究表明照顧好牙齒可能對(duì)大腦有益 新研究表明醫(yī)療補(bǔ)助的擴(kuò)大與晚期癌癥患者姑息治療的增加相關(guān) 番茄炒蛋的做法與步驟(番茄炒蛋的做法與步驟圖片) 中秋節(jié)作文結(jié)尾佳句(中秋節(jié)作文結(jié)尾怎么寫) 如何申請(qǐng)visa信用卡(信用卡開通visa) 八寶粥的配料和做法(八寶粥的配料和做法大全) Activex控件無法安裝解決辦法(activex控件裝入失敗) 怎么趕上早上六點(diǎn)的飛機(jī)?(怎么趕上早上六點(diǎn)的飛機(jī)航班) 魚珠膠的作用是什么(魚珠膠是什么膠水) 過年的時(shí)候 給親戚朋友們拜年要注意些啥?(過年哪些親戚需拜年) 烤香腸的做法(臺(tái)式烤香腸的做法) 大月氏讀yue還是rou(大月像高達(dá)) 菏澤商標(biāo)注冊(cè)流程有哪些?(菏澤商標(biāo)注冊(cè)流程有哪些企業(yè))
您的位置:首頁 >要聞 >

向量空間模型java(向量空間模型)

導(dǎo)讀 關(guān)于向量空間模型java,向量空間模型這個(gè)問題很多朋友還不知道,今天小六來為大家解答以上的問題,現(xiàn)在讓我們一起來看看吧!1、VSM概念簡單

關(guān)于向量空間模型java,向量空間模型這個(gè)問題很多朋友還不知道,今天小六來為大家解答以上的問題,現(xiàn)在讓我們一起來看看吧!

1、VSM概念簡單,把對(duì)文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語義的相似度,直觀易懂。

2、當(dāng)文檔被表示為文檔空間的向量,就可以通過計(jì)算向量之間的相似性來度量文檔間的相似性。

3、文本處理中最常用的相似性度量方式是余弦距離。

4、M個(gè)無序特征項(xiàng)ti,詞根/詞/短語/其他每個(gè)文檔dj可以用特征項(xiàng)向量來表示(a1j,a2j,…,aMj)權(quán)重計(jì)算,N個(gè)訓(xùn)練文檔AM*N= (aij) 文檔相似度比較1)Cosine計(jì)算,余弦計(jì)算的好處是,正好是一個(gè)介于0到1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的計(jì)算方法為,向量內(nèi)積/各個(gè)向量的模的乘積.2)內(nèi)積計(jì)算,直接計(jì)算內(nèi)積,計(jì)算強(qiáng)度低,但是誤差大。

5、向量空間模型 (或詞組向量模型) 是一個(gè)應(yīng)用于信息過濾,信息擷取,索引 以及評(píng)估相關(guān)性的代數(shù)模型。

6、SMART是首個(gè)使用這個(gè)模型的信息檢索系統(tǒng)。

7、文件(語料)被視為索引詞(關(guān)鍵詞)形成的多次元向量空間, 索引詞的集合通常為文件中至少出現(xiàn)過一次的詞組。

8、搜尋時(shí),輸入的檢索詞也被轉(zhuǎn)換成類似于文件的向量,這個(gè)模型假設(shè),文件和搜尋詞的相關(guān)程度,可以經(jīng)由比較每個(gè)文件(向量)和檢索詞(向量)的夾角偏差程度而得知。

9、實(shí)際上,計(jì)算夾角向量之間的余弦比直接計(jì)算夾角容易:余弦為零表示檢索詞向量垂直于文件向量,即沒有符合,也就是說該文件不含此檢索詞。

10、通過上述的向量空間模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),兩個(gè)文檔之間的相似性問題轉(zhuǎn)變成了兩個(gè)向量之間的相似性問題。

本文分享完畢,希望對(duì)大家有所幫助。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章