1、VSM概念簡單,把對文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語義的相似度,直觀易懂。
(相關(guān)資料圖)
2、當(dāng)文檔被表示為文檔空間的向量,就可以通過計算向量之間的相似性來度量文檔間的相似性。
3、文本處理中最常用的相似性度量方式是余弦距離。
4、M個無序特征項ti,詞根/詞/短語/其他每個文檔dj可以用特征項向量來表示(a1j,a2j,…,aMj)權(quán)重計算,N個訓(xùn)練文檔AM*N= (aij) 文檔相似度比較1)Cosine計算,余弦計算的好處是,正好是一個介于0到1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的計算方法為,向量內(nèi)積/各個向量的模的乘積.2)內(nèi)積計算,直接計算內(nèi)積,計算強(qiáng)度低,但是誤差大。
5、向量空間模型 (或詞組向量模型) 是一個應(yīng)用于信息過濾,信息擷取,索引 以及評估相關(guān)性的代數(shù)模型。
6、SMART是首個使用這個模型的信息檢索系統(tǒng)。
7、文件(語料)被視為索引詞(關(guān)鍵詞)形成的多次元向量空間, 索引詞的集合通常為文件中至少出現(xiàn)過一次的詞組。
8、搜尋時,輸入的檢索詞也被轉(zhuǎn)換成類似于文件的向量,這個模型假設(shè),文件和搜尋詞的相關(guān)程度,可以經(jīng)由比較每個文件(向量)和檢索詞(向量)的夾角偏差程度而得知。
9、實際上,計算夾角向量之間的余弦比直接計算夾角容易:余弦為零表示檢索詞向量垂直于文件向量,即沒有符合,也就是說該文件不含此檢索詞。
10、通過上述的向量空間模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),兩個文檔之間的相似性問題轉(zhuǎn)變成了兩個向量之間的相似性問題。
本文就為大家分享到這里,希望小伙伴們會喜歡。
標(biāo)簽:
Copyright © 2015-2022 太平洋獸藥網(wǎng) 版權(quán)所有 備案號:豫ICP備2022016495號-17 聯(lián)系郵箱:93 96 74 66 9@qq.com