AV无码一区二区二三区1区6区_成人无码视频97免费_丰满的熟妇岳中文字幕_国产精品精品自在线拍_国产精品久久久天天影视香蕉_国产精品线在线精品_国产精品亚洲AV人片_国产午夜精品一区二区三区漫画_国产午夜无码视频在线观看_国产亚洲精品第一综合另类灬,无码国产亚洲日韩国精品,欧美精品九九99久,被粗大J8捣出白浆公交车视频

煙臺論壇-煙臺社區(qū)

標(biāo)題: 百度如何判斷一篇文章是否原創(chuàng) [打印本頁]

作者: nykpupmf367692    時(shí)間: 2015-10-16 13:15
標(biāo)題: 百度如何判斷一篇文章是否原創(chuàng)
    句子相似度計(jì)算在問題檢索、雙語例句檢索,、機(jī)器翻譯,、文檔文摘等領(lǐng)域都有很重要的應(yīng)用價(jià)值,其中采用怎樣的句子相似度計(jì)算方法能夠準(zhǔn)確地體現(xiàn)兩個(gè)句子之間的相似狀況是影響上述應(yīng)用質(zhì)量的關(guān)鍵,。舉一個(gè)在機(jī)器翻譯技術(shù)中的應(yīng)用,,在機(jī)器翻譯技術(shù)中通常使用預(yù)處理過的雙語例句作為主要翻譯資源,通過編輯與待翻譯句子匹配的相似例句來生成最終譯文,。具體地,,包括以下步驟:
    1)在翻譯實(shí)例庫中搜索與待翻譯句子匹配的相似例句。例如:待翻譯句子為:This is a pencilo相似例句為:That is a peno
    2)識別待翻譯句子和相似例句之間的差異詞   This和That是差異詞,,pencil和pen是差異詞,。
    3)將待翻譯句子中的差異詞對應(yīng)的譯文作為候選譯文片段。即“這”和“鉛筆”作為候選譯文片段,。
    4)在相似例句的譯文中,,利用候選譯文片段替換相似例句中差異詞的譯文,得到待翻譯句子的譯文。相似例句的譯文為:“那是一只鋼筆”,,用“這”替換“那”,,用“鉛筆”替換“鉛筆”,得到待翻譯句子的譯文為“這是一只鉛筆”,。由以上機(jī)器翻譯過程可以看出,,如何選擇相似例句是影響翻譯質(zhì)量高低的關(guān)鍵因素。現(xiàn)有的句子相似度計(jì)算通常采用計(jì)算句子之間編輯距離的方式,,編輯距離由從一個(gè)句子轉(zhuǎn)換到另一個(gè)句子所需要的最少操作數(shù)目確定,,所述操作可以包括:插入、刪除或替換等,,如果兩個(gè)句子之間的編輯距離越小,,則確定兩個(gè)句子之間的相似度越高,但這種方式會存在一定缺陷,。例如,,如果待翻譯句子為:Can工take a picture of the painting?通過計(jì)算編輯距離方式選擇的相似例句為:Can工take a picture of the car ?利用該相似例句形成的譯文為:我能為這輛油畫拍張照片嗎?如果將句子Can we take a photo of the painting作為待翻譯句子的相似例句,則形成的譯文為:我能為這幅油畫拍張照片嗎?可以看出,,雖然句子Can we take a photo of the painting與待翻譯句子的編輯距離大于句子Can工take a picture of the car與待翻譯句子的編輯距離,,但其與待翻譯句子的相似性要高于句子Can工take a picture of the car,從而形成的譯文質(zhì)量也較高,。擴(kuò)展閱讀:算命最準(zhǔn)的免費(fèi)網(wǎng)站​hsm
    上述的問題就是因?yàn)樵谟?jì)算句子之間相似度時(shí),,沒有考慮兩句子差異詞之間的關(guān)系。雖然有人提出在相似度的計(jì)算中基于同義詞詞典來考慮差異詞之間的相似程度,,但在很多應(yīng)用下,,諸如上述機(jī)器翻譯應(yīng)用中,差異詞與上下文之間搭配關(guān)系相比較語義來說,,在
相似度計(jì)算中具有更加重要的意義,,更能夠準(zhǔn)確地體現(xiàn)出兩句子之間的匹配程度,對上述應(yīng)用的質(zhì)量影響更大,。
    搜索引擎計(jì)算句子相似度的方法包括:A,、對第一句子和第二句子進(jìn)行比較,確定差異詞對;B,、利用差異詞對中差異詞與其所在第一句子或第二句子中其他詞語的搭配概率,,為各差異詞打分,其中兩詞語之間的搭配概率通過查詢搭配概率模型得到,,所述搭配概率
模型中兩詞語之間的搭配概率由所述兩詞語在預(yù)設(shè)的語料庫中的共現(xiàn)次數(shù)統(tǒng)計(jì)得到;c,、利用差異詞對中各差異詞的打分結(jié)果,確定差異詞對的打分;D,、利用各差異詞對的打分結(jié)果,,確定所述第一句子和所述第二句子的相似度,。
具體地,在所述步驟B中,,按照如下公式為各芳異詞打分:其中m r (w; , E)為差異詞W,、的打分結(jié)果,E為差異詞w,,所在的第一句子或第二句子,W}為E中除W,,之外的其他詞語,,r (w; , w})為W,和W}的搭配概率,,m為E包含的詞語數(shù)目,。在所述步驟c中,按照如下公式為差異詞對打分:IS}(W} Wj=Y}W, El}al * Y傾, E2)a2;或者,,}S(W}Wj=刀1*r(w,El)+刀2*r恤,,E2);其中,S(w, w)為由差異詞w和w構(gòu)成的差異詞對的打分結(jié)果,,r (w, El)為第一句子El中的差異詞w的打分結(jié)果,,r (w, E2)為第二句子E2中的差異詞w的打分結(jié)果,a 1, a 2,I3 1和I32為預(yù)設(shè)的權(quán)值參數(shù),。更進(jìn)一步地,,該方法還包括:確定差異詞對中兩差異詞的特征向量,利用所述兩差異詞的特征向量,,計(jì)算所述兩差異詞的相似距離;所述步驟C中確定差異詞對的打分時(shí),,進(jìn)一步利用差異詞對中兩差異詞的相似距
。其中,,差異詞的特征向量的確定方式具體為:查詢所述搭配概率模型,,將與差異詞的搭配概率達(dá)到預(yù)設(shè)搭配概率閩值的詞語構(gòu)成該差異詞的特征向量。具體地,,按照如下公式計(jì)算所述兩差異詞的相似距離:dist}w,w}=}-Cosine}F}w},F恤)),,其中,dist(w, w)為差異詞w和h,的相似距離,,A為預(yù)設(shè)的正數(shù),,F(xiàn) (w)為差異詞w的特征向量,F(xiàn)(w)為差異詞iv的特征向量,,Co sin e(F(w), F恤))為F (w)和F伽)的夾角余弦,。
    在所述步驟C中,按照如下公式為差異詞對打分:S(w,w)=r(w, El)`}' * r傾,,E2)`}` * dist(w, w)`}3;或者,,b'}w, w)=刀1*raw, E1)+刀2*r(w, E2)+刀3*dist(w, w);其中,,S(w,w)為由差異詞w和w構(gòu)成的差異詞對的打分結(jié)果,r (w, El)為第一句子El中的差異詞w的打分結(jié)果,,r }w, E2)為第二句子E2中的差異詞w的打分結(jié)果,,dist(w, w)為差異詞w和w的相似距離,a 1, a 2, a 3, R 1, R 2和I33為預(yù)設(shè)的權(quán)值參數(shù),。
    一種機(jī)器翻譯的方法,,該機(jī)器翻譯的方法包括:S 1、采用上述計(jì)算句子相似度的方法計(jì)算待翻譯句子和預(yù)設(shè)的例句庫中句子的相似度;S2,、選擇相似度排在前N個(gè)的句子作為所述待翻譯句子的相似例句,,N為預(yù)設(shè)的正整數(shù);S3、利用所述相似例句的譯文得到所述待翻譯句子的譯文,。其中,,所述步驟S1具體包括:S 11、確定所述例句庫中與所述待翻譯句子之間的編輯距離滿足預(yù)設(shè)要求的句S12,、采用上述計(jì)算句子相似度的方法計(jì)算待翻譯句子和所述步驟S11確定的句子之間的相似度,。步驟S3具體包括:S31、識別所述待翻譯句子和所述相似例句之間的差異詞;S32,、將所述待翻譯句子中的差異詞對應(yīng)的譯文作為候選譯文片段;S33,、在所述相似例句的譯文中,利用候選譯文片段替換相似例句中對應(yīng)差異詞的譯文,,得到所述待翻譯句子的譯文,。優(yōu)選地,該機(jī)器翻譯的方法還包括:在顯示所述待翻譯句子的譯文的同時(shí),,將采用的相似例句以及采用的相似例句和所述待翻譯句子的各差異詞對的打分結(jié)果進(jìn)行顯示,。
    一種計(jì)算句子相似度的裝置,該裝置包括:句子比較單元,,用于對第一句子和第二句子進(jìn)行比較,,確定差異詞對;差異詞打分單元,用于利用差異詞對中差異詞與其所在第一句子或第二句子中其他詞語的搭配概率,,為各差異詞打分,,其中兩詞語之間的搭配概率通過查詢搭配概率模型得到,所述搭配概率模型中兩詞語之間的搭配概率由所述兩詞語在預(yù)設(shè)的語料庫中的共現(xiàn)次數(shù)統(tǒng)計(jì)得到;差異詞對打分單元,,用于利用差異詞對中各差異詞的打分結(jié)果,,確定差異詞對的打分;相似度確定單元,用于利用各差異詞對的打分結(jié)果,,確定所述第一句子和所述第二句子的相似度,。具體地,所述差異詞打分單元按照如下公式為各差異詞打分:Y }1vt,,W:(,、,,,E)=w.EE,w} EE,h}. xw} m其中r (w; , E)為差異詞W,、的打分結(jié)果,,E為差異詞Wi所在的第一句子或第二句子,W.i為E中除w,,之外的其他詞語,,r (w; , w.;)為w,和W.i的搭配概率,,m為E包含的詞語數(shù)目,。此時(shí),所述差異詞對打分單元按照如下公式為差異詞對打分:Sew, w}=Y}W, El}al * Y傾, E2)a2;或者,,S(W, Wj=刀1*r(w,El)+刀2*r恤,E2);其中,,S(w, w)為由差異詞w和w構(gòu)成的差異詞對的打分結(jié)果,,r (w, E1)為第一句子El中的差異詞w的打分結(jié)果,r (w, E2)為第二句子E2中的差異詞w的打分結(jié)果,,a 1, a 2,I3 1和I32為預(yù)設(shè)的權(quán)值參數(shù),。
    還有一種實(shí)施方式,該裝置還包括:相似距離確定單元,,用于確定差異詞對中兩差異詞的特征向量,,利用所述兩差異詞的特征向量,計(jì)算所述兩差異詞的相似距離;所述差異詞對打分單元在確定差異詞對的打分時(shí),,進(jìn)一步利用差異詞對中兩差異詞的相似距離,。其中,所述相似距離確定單元查詢所述搭配概率模型,,將與差異詞的搭配概率達(dá)到預(yù)設(shè)搭配概率閩值的詞語構(gòu)成該差異詞的特征向量,。所述相似距離確定單元按照如下公式計(jì)算所述兩差異詞的相似距離:diSt}w,w}=}-Cosine}F}w},F)),其中,,diSt(w, w)為差異詞w和w的相似距離,,A為預(yù)設(shè)的正數(shù),F(xiàn) (w)為差異詞w的特征向量,,F(xiàn)(w)為差異詞w的特征向量,,Co sin e(F(w), F恤))為F (w)和F恤)的夾角余弦。此時(shí),,所述差異詞對打分單元按照如下公式為差異詞對打分:S}W, W}=Y}W,El}al *Y傾, E2}a2 * dlSt}W, W}a3;或者Sew}=1*raw, E1)+2*r(w, E2)+3*dist(w, w);其中,,S(w, w)為由差異詞w和w構(gòu)成的差異詞對的打分結(jié)果,r (w, E1)為第一句子El中的差異詞w的打分結(jié)果,,r }w, E2)為第二句子E2中的差異詞w的打分結(jié)果,,dist(w, w)為差異詞w和w的相似距離,,a1, a2, a3, R1, R2和I33為預(yù)設(shè)的權(quán)值參數(shù)。一種機(jī)器翻譯的裝置,,該機(jī)器翻譯的裝置包括:上述計(jì)算句子相似度的裝置,,用于計(jì)算待翻譯句子和預(yù)設(shè)的例句庫中句子的相似度;相似例句選擇單元,用于選擇相似度排在前N個(gè)的句子作為所述待翻譯句子的相似例句,,N為預(yù)設(shè)的正整數(shù);譯文形成單元,,用于利用所述相似例句的譯文得到所述待翻譯句子的譯文。更進(jìn)一步地,,該機(jī)器翻譯的裝置還包括:初步選擇單元,,用于確定所述例句庫中與所述待翻譯句子之間的編輯距離滿足預(yù)設(shè)要求的句子;所述計(jì)算句子相似度的裝置計(jì)算待翻譯句子和所述初步選擇單元確定的句子之間的相似度。其中,,所述譯文形成單元具體包括:差異詞識別子單元,,用于識別所述待翻譯句子和所述相似例句之間的差異詞;片段構(gòu)造子單元,用于將所述待翻譯句子中的差異詞對應(yīng)的譯文作為候選譯文片段;譯文形成子單元,,用于在所述相似例句的譯文中,,利用候選譯文片段替換相似例句中對應(yīng)差異詞的譯文,得到所述待翻譯句子的譯文,。優(yōu)選地,,該機(jī)器翻譯的裝置還包括:顯示單元,用于在顯示所述待翻譯句子的譯文的同時(shí),,將采用的相似例句以及采用的相似例句和所述待翻譯句子的各差異詞對的打分結(jié)果進(jìn)行顯示,。
    搜索引擎通過以上以上技術(shù)方案提供的方法將詞語與詞語的搭配概率融入句子相似度的計(jì)算,即基于差異詞與其所在句子中其他詞語的搭配概率為差異詞對打分,,進(jìn)而計(jì)算句子之間的差異度,,相比較現(xiàn)有技術(shù)而言,更加準(zhǔn)確地體現(xiàn)出句子之間的匹配程度,,從而提高其用于諸如機(jī)器翻譯等應(yīng)用的質(zhì)量,。
本文由:登封招聘網(wǎng)轉(zhuǎn)載發(fā)布!





歡迎光臨 煙臺論壇-煙臺社區(qū) (http://xckxqm.com/) Powered by Discuz! X3.4