- 積分
- 2305
- 經(jīng)驗(yàn)
- 點(diǎn)
- 威望
- 點(diǎn)
- 金錢(qián)
- 兩
- 魅力
- 點(diǎn)
- 金幣
- 元
- 性別
- 保密
- 在線(xiàn)時(shí)間
- 小時(shí)
- 注冊(cè)時(shí)間
- 2014-4-29
- 最后登錄
- 1970-1-1
|
馬上注冊(cè),,結(jié)交更多好友,,享用更多功能,,讓你輕松玩轉(zhuǎn)社區(qū),。
您需要 登錄 才可以下載或查看,,沒(méi)有帳號(hào),?點(diǎn)這里注冊(cè)
x
句子相似度計(jì)算在問(wèn)題檢索,、雙語(yǔ)例句檢索,、機(jī)器翻譯、文檔文摘等領(lǐng)域都有很重要的應(yīng)用價(jià)值,,其中采用怎樣的句子相似度計(jì)算方法能夠準(zhǔn)確地體現(xiàn)兩個(gè)句子之間的相似狀況是影響上述應(yīng)用質(zhì)量的關(guān)鍵,。舉一個(gè)在機(jī)器翻譯技術(shù)中的應(yīng)用,在機(jī)器翻譯技術(shù)中通常使用預(yù)處理過(guò)的雙語(yǔ)例句作為主要翻譯資源,,通過(guò)編輯與待翻譯句子匹配的相似例句來(lái)生成最終譯文,。具體地,包括以下步驟:
1)在翻譯實(shí)例庫(kù)中搜索與待翻譯句子匹配的相似例句,。例如:待翻譯句子為:This is a pencilo相似例句為:That is a peno
2)識(shí)別待翻譯句子和相似例句之間的差異詞 This和That是差異詞,,pencil和pen是差異詞。
3)將待翻譯句子中的差異詞對(duì)應(yīng)的譯文作為候選譯文片段,。即“這”和“鉛筆”作為候選譯文片段,。
4)在相似例句的譯文中,利用候選譯文片段替換相似例句中差異詞的譯文,,得到待翻譯句子的譯文,。相似例句的譯文為:“那是一只鋼筆”,用“這”替換“那”,,用“鉛筆”替換“鉛筆”,,得到待翻譯句子的譯文為“這是一只鉛筆”。由以上機(jī)器翻譯過(guò)程可以看出,,如何選擇相似例句是影響翻譯質(zhì)量高低的關(guān)鍵因素�,,F(xiàn)有的句子相似度計(jì)算通常采用計(jì)算句子之間編輯距離的方式,編輯距離由從一個(gè)句子轉(zhuǎn)換到另一個(gè)句子所需要的最少操作數(shù)目確定,,所述操作可以包括:插入,、刪除或替換等,如果兩個(gè)句子之間的編輯距離越小,則確定兩個(gè)句子之間的相似度越高,,但這種方式會(huì)存在一定缺陷,。例如,如果待翻譯句子為:Can工take a picture of the painting?通過(guò)計(jì)算編輯距離方式選擇的相似例句為:Can工take a picture of the car ?利用該相似例句形成的譯文為:我能為這輛油畫(huà)拍張照片嗎?如果將句子Can we take a photo of the painting作為待翻譯句子的相似例句,,則形成的譯文為:我能為這幅油畫(huà)拍張照片嗎?可以看出,,雖然句子Can we take a photo of the painting與待翻譯句子的編輯距離大于句子Can工take a picture of the car與待翻譯句子的編輯距離,但其與待翻譯句子的相似性要高于句子Can工take a picture of the car,,從而形成的譯文質(zhì)量也較高,。擴(kuò)展閱讀:算命最準(zhǔn)的免費(fèi)網(wǎng)站hsm
上述的問(wèn)題就是因?yàn)樵谟?jì)算句子之間相似度時(shí),,沒(méi)有考慮兩句子差異詞之間的關(guān)系,。雖然有人提出在相似度的計(jì)算中基于同義詞詞典來(lái)考慮差異詞之間的相似程度,但在很多應(yīng)用下,,諸如上述機(jī)器翻譯應(yīng)用中,,差異詞與上下文之間搭配關(guān)系相比較語(yǔ)義來(lái)說(shuō),在
相似度計(jì)算中具有更加重要的意義,,更能夠準(zhǔn)確地體現(xiàn)出兩句子之間的匹配程度,,對(duì)上述應(yīng)用的質(zhì)量影響更大。
搜索引擎計(jì)算句子相似度的方法包括:A,、對(duì)第一句子和第二句子進(jìn)行比較,,確定差異詞對(duì);B、利用差異詞對(duì)中差異詞與其所在第一句子或第二句子中其他詞語(yǔ)的搭配概率,,為各差異詞打分,,其中兩詞語(yǔ)之間的搭配概率通過(guò)查詢(xún)搭配概率模型得到,所述搭配概率
模型中兩詞語(yǔ)之間的搭配概率由所述兩詞語(yǔ)在預(yù)設(shè)的語(yǔ)料庫(kù)中的共現(xiàn)次數(shù)統(tǒng)計(jì)得到;c,、利用差異詞對(duì)中各差異詞的打分結(jié)果,,確定差異詞對(duì)的打分;D、利用各差異詞對(duì)的打分結(jié)果,,確定所述第一句子和所述第二句子的相似度,。
具體地,在所述步驟B中,,按照如下公式為各芳異詞打分:其中m r (w; , E)為差異詞W,、的打分結(jié)果,E為差異詞w,,所在的第一句子或第二句子,,W}為E中除W,之外的其他詞語(yǔ),,r (w; , w})為W,,和W}的搭配概率,m為E包含的詞語(yǔ)數(shù)目。在所述步驟c中,,按照如下公式為差異詞對(duì)打分:IS}(W} Wj=Y}W, El}al * Y傾, E2)a2;或者,,}S(W}Wj=刀1*r(w,El)+刀2*r恤,E2);其中,,S(w, w)為由差異詞w和w構(gòu)成的差異詞對(duì)的打分結(jié)果,,r (w, El)為第一句子El中的差異詞w的打分結(jié)果,r (w, E2)為第二句子E2中的差異詞w的打分結(jié)果,,a 1, a 2,I3 1和I32為預(yù)設(shè)的權(quán)值參數(shù),。更進(jìn)一步地,該方法還包括:確定差異詞對(duì)中兩差異詞的特征向量,,利用所述兩差異詞的特征向量,,計(jì)算所述兩差異詞的相似距離;所述步驟C中確定差異詞對(duì)的打分時(shí),進(jìn)一步利用差異詞對(duì)中兩差異詞的相似距
,。其中,,差異詞的特征向量的確定方式具體為:查詢(xún)所述搭配概率模型,將與差異詞的搭配概率達(dá)到預(yù)設(shè)搭配概率閩值的詞語(yǔ)構(gòu)成該差異詞的特征向量,。具體地,,按照如下公式計(jì)算所述兩差異詞的相似距離:dist}w,w}=}-Cosine}F}w},F恤)),其中,,dist(w, w)為差異詞w和h,的相似距離,,A為預(yù)設(shè)的正數(shù),F(xiàn) (w)為差異詞w的特征向量,,F(xiàn)(w)為差異詞iv的特征向量,,Co sin e(F(w), F恤))為F (w)和F伽)的夾角余弦。
在所述步驟C中,,按照如下公式為差異詞對(duì)打分:S(w,w)=r(w, El)`}' * r傾,,E2)`}` * dist(w, w)`}3;或者,b'}w, w)=刀1*raw, E1)+刀2*r(w, E2)+刀3*dist(w, w);其中,,S(w,w)為由差異詞w和w構(gòu)成的差異詞對(duì)的打分結(jié)果,,r (w, El)為第一句子El中的差異詞w的打分結(jié)果,r }w, E2)為第二句子E2中的差異詞w的打分結(jié)果,,dist(w, w)為差異詞w和w的相似距離,,a 1, a 2, a 3, R 1, R 2和I33為預(yù)設(shè)的權(quán)值參數(shù)。
一種機(jī)器翻譯的方法,,該機(jī)器翻譯的方法包括:S 1,、采用上述計(jì)算句子相似度的方法計(jì)算待翻譯句子和預(yù)設(shè)的例句庫(kù)中句子的相似度;S2、選擇相似度排在前N個(gè)的句子作為所述待翻譯句子的相似例句,,N為預(yù)設(shè)的正整數(shù);S3,、利用所述相似例句的譯文得到所述待翻譯句子的譯文,。其中,所述步驟S1具體包括:S 11,、確定所述例句庫(kù)中與所述待翻譯句子之間的編輯距離滿(mǎn)足預(yù)設(shè)要求的句S12,、采用上述計(jì)算句子相似度的方法計(jì)算待翻譯句子和所述步驟S11確定的句子之間的相似度。步驟S3具體包括:S31,、識(shí)別所述待翻譯句子和所述相似例句之間的差異詞;S32,、將所述待翻譯句子中的差異詞對(duì)應(yīng)的譯文作為候選譯文片段;S33、在所述相似例句的譯文中,,利用候選譯文片段替換相似例句中對(duì)應(yīng)差異詞的譯文,,得到所述待翻譯句子的譯文。優(yōu)選地,,該機(jī)器翻譯的方法還包括:在顯示所述待翻譯句子的譯文的同時(shí),,將采用的相似例句以及采用的相似例句和所述待翻譯句子的各差異詞對(duì)的打分結(jié)果進(jìn)行顯示。
一種計(jì)算句子相似度的裝置,,該裝置包括:句子比較單元,,用于對(duì)第一句子和第二句子進(jìn)行比較,,確定差異詞對(duì);差異詞打分單元,,用于利用差異詞對(duì)中差異詞與其所在第一句子或第二句子中其他詞語(yǔ)的搭配概率,為各差異詞打分,,其中兩詞語(yǔ)之間的搭配概率通過(guò)查詢(xún)搭配概率模型得到,,所述搭配概率模型中兩詞語(yǔ)之間的搭配概率由所述兩詞語(yǔ)在預(yù)設(shè)的語(yǔ)料庫(kù)中的共現(xiàn)次數(shù)統(tǒng)計(jì)得到;差異詞對(duì)打分單元,用于利用差異詞對(duì)中各差異詞的打分結(jié)果,,確定差異詞對(duì)的打分;相似度確定單元,,用于利用各差異詞對(duì)的打分結(jié)果,確定所述第一句子和所述第二句子的相似度,。具體地,,所述差異詞打分單元按照如下公式為各差異詞打分:Y }1vt,W:(,、,,,E)=w.EE,w} EE,h}. xw} m其中r (w; , E)為差異詞W,、的打分結(jié)果,,E為差異詞Wi所在的第一句子或第二句子,W.i為E中除w,,之外的其他詞語(yǔ),,r (w; , w.;)為w,和W.i的搭配概率,,m為E包含的詞語(yǔ)數(shù)目,。此時(shí),,所述差異詞對(duì)打分單元按照如下公式為差異詞對(duì)打分:Sew, w}=Y}W, El}al * Y傾, E2)a2;或者,S(W, Wj=刀1*r(w,El)+刀2*r恤,,E2);其中,,S(w, w)為由差異詞w和w構(gòu)成的差異詞對(duì)的打分結(jié)果,r (w, E1)為第一句子El中的差異詞w的打分結(jié)果,,r (w, E2)為第二句子E2中的差異詞w的打分結(jié)果,,a 1, a 2,I3 1和I32為預(yù)設(shè)的權(quán)值參數(shù)。
還有一種實(shí)施方式,,該裝置還包括:相似距離確定單元,,用于確定差異詞對(duì)中兩差異詞的特征向量,利用所述兩差異詞的特征向量,,計(jì)算所述兩差異詞的相似距離;所述差異詞對(duì)打分單元在確定差異詞對(duì)的打分時(shí),,進(jìn)一步利用差異詞對(duì)中兩差異詞的相似距離。其中,,所述相似距離確定單元查詢(xún)所述搭配概率模型,,將與差異詞的搭配概率達(dá)到預(yù)設(shè)搭配概率閩值的詞語(yǔ)構(gòu)成該差異詞的特征向量。所述相似距離確定單元按照如下公式計(jì)算所述兩差異詞的相似距離:diSt}w,w}=}-Cosine}F}w},F)),,其中,,diSt(w, w)為差異詞w和w的相似距離,A為預(yù)設(shè)的正數(shù),,F(xiàn) (w)為差異詞w的特征向量,,F(xiàn)(w)為差異詞w的特征向量,Co sin e(F(w), F恤))為F (w)和F恤)的夾角余弦,。此時(shí),,所述差異詞對(duì)打分單元按照如下公式為差異詞對(duì)打分:S}W, W}=Y}W,El}al *Y傾, E2}a2 * dlSt}W, W}a3;或者Sew}=1*raw, E1)+2*r(w, E2)+3*dist(w, w);其中,S(w, w)為由差異詞w和w構(gòu)成的差異詞對(duì)的打分結(jié)果,,r (w, E1)為第一句子El中的差異詞w的打分結(jié)果,,r }w, E2)為第二句子E2中的差異詞w的打分結(jié)果,dist(w, w)為差異詞w和w的相似距離,,a1, a2, a3, R1, R2和I33為預(yù)設(shè)的權(quán)值參數(shù),。一種機(jī)器翻譯的裝置,該機(jī)器翻譯的裝置包括:上述計(jì)算句子相似度的裝置,,用于計(jì)算待翻譯句子和預(yù)設(shè)的例句庫(kù)中句子的相似度;相似例句選擇單元,,用于選擇相似度排在前N個(gè)的句子作為所述待翻譯句子的相似例句,N為預(yù)設(shè)的正整數(shù);譯文形成單元,,用于利用所述相似例句的譯文得到所述待翻譯句子的譯文,。更進(jìn)一步地,該機(jī)器翻譯的裝置還包括:初步選擇單元,,用于確定所述例句庫(kù)中與所述待翻譯句子之間的編輯距離滿(mǎn)足預(yù)設(shè)要求的句子;所述計(jì)算句子相似度的裝置計(jì)算待翻譯句子和所述初步選擇單元確定的句子之間的相似度,。其中,,所述譯文形成單元具體包括:差異詞識(shí)別子單元,用于識(shí)別所述待翻譯句子和所述相似例句之間的差異詞;片段構(gòu)造子單元,,用于將所述待翻譯句子中的差異詞對(duì)應(yīng)的譯文作為候選譯文片段;譯文形成子單元,,用于在所述相似例句的譯文中,利用候選譯文片段替換相似例句中對(duì)應(yīng)差異詞的譯文,,得到所述待翻譯句子的譯文,。優(yōu)選地,該機(jī)器翻譯的裝置還包括:顯示單元,,用于在顯示所述待翻譯句子的譯文的同時(shí),,將采用的相似例句以及采用的相似例句和所述待翻譯句子的各差異詞對(duì)的打分結(jié)果進(jìn)行顯示。
搜索引擎通過(guò)以上以上技術(shù)方案提供的方法將詞語(yǔ)與詞語(yǔ)的搭配概率融入句子相似度的計(jì)算,,即基于差異詞與其所在句子中其他詞語(yǔ)的搭配概率為差異詞對(duì)打分,,進(jìn)而計(jì)算句子之間的差異度,相比較現(xiàn)有技術(shù)而言,,更加準(zhǔn)確地體現(xiàn)出句子之間的匹配程度,,從而提高其用于諸如機(jī)器翻譯等應(yīng)用的質(zhì)量。
本文由:登封招聘網(wǎng)轉(zhuǎn)載發(fā)布,!
|
|