- 積分
- 2305
- 經(jīng)驗(yàn)
- 點(diǎn)
- 威望
- 點(diǎn)
- 金錢
- 兩
- 魅力
- 點(diǎn)
- 金幣
- 元
- 性別
- 保密
- 在線時間
- 小時
- 注冊時間
- 2014-4-29
- 最后登錄
- 1970-1-1
|
馬上注冊,結(jié)交更多好友,,享用更多功能,,讓你輕松玩轉(zhuǎn)社區(qū)。
您需要 登錄 才可以下載或查看,,沒有帳號,?點(diǎn)這里注冊
x
無論是頁面搜索中的排序、還是在頁面主題詞的確定或者其他方面都會涉及到頁面主題的獲取,,例如在頁面搜索的排序中,,會將頁面主題與query之間相關(guān)度越高的排在越前面,頁面主題詞通常從頁面主題中提取等等,。目前,,通常簡單地將頁面的整個標(biāo)題段(title)作為頁面主題。但是頁面的title中可能存在多個段落,,有些段落是頁面主題不相關(guān)的內(nèi)容,,會造成頁面主題的偏移。應(yīng)用在頁面搜索的排序中可能不能夠準(zhǔn)確地滿足用戶需求,,應(yīng)用在頁面主題詞的確定中可能造成確定的頁面主題詞不能夠準(zhǔn)確地體現(xiàn)頁面主題,。因此對于如何能更好的分析頁面主題關(guān)系成為了搜素引擎在判斷一個站點(diǎn)在某個行業(yè)的權(quán)威性以及內(nèi)容有著重要的作用!擴(kuò)展閱讀:算命最準(zhǔn)的免費(fèi)網(wǎng)站hsm
百度提供了一種相對于其他搜素引擎來說比較先進(jìn)的提取頁面主題的方法和裝置,,以便于減小提取的頁面主題與實(shí)際頁面主題的偏差,。該提取頁面主題的方法主要包括:A、獲取頁面中表達(dá)頁面主題的候選段落,;B,、如果存在可再分段的候選段落,則對可再分段的候選段落進(jìn)行分段處理,;否則執(zhí)行步驟C;C,、分別計算步驟B之后得到的各段落的置信度,;D、將置信度滿足預(yù)設(shè)的置信度要求的段落作為頁面主題段落,。
在步驟A中獲取的候選段落包括以下所列的至少一個:標(biāo)簽為title的頁面標(biāo)題段落,、標(biāo)簽為realtitle的頁面標(biāo)題行、標(biāo)簽為mypos的導(dǎo)航段落以及標(biāo)簽為preanchor的前鏈,。具體地,,步驟B中,如果存在包含預(yù)設(shè)類型的符號的候選段落,,則確定該候選段落可再分段,,并以預(yù)設(shè)類型的符號為分隔符對可再分段的候選段落進(jìn)行分段處理,。其中,預(yù)設(shè)類型的符號包括:標(biāo)點(diǎn)符號,、空格,、下劃線、斜線或者括號,。另外,,步驟C具體包括:C1、對所述步驟B之后得到的各段落進(jìn)行分詞處理,;C2,、按照公式Dij=α*Sij+β*Pij,計算分詞處理后得到各詞語的置信度,,其中,,Dij為第i個段落分詞處理后得到的第j個詞語的置信度,Sij為第i個段落分詞處理后得到的第j個詞語在所述各段落中出現(xiàn)的總頻次,,Pij為第i個段落分詞處理后得到的第j個詞語在所述頁面中出現(xiàn)的頻次,,α和β為預(yù)設(shè)的加權(quán)系數(shù);C3,、利用各段落中包含的各詞語的置信度,,分別得到所述各段落的置信度。在所述步驟C3中,,第i個段落的置信度Di可以為:N為第i個段落分詞處理后得到的詞語數(shù)目,。較優(yōu)地,在步驟C或者所述步驟D之前,,還包括:根據(jù)預(yù)設(shè)的站點(diǎn)詞典,,將所述各段落中出現(xiàn)所述站點(diǎn)詞典中內(nèi)容占段落長度的比例達(dá)到預(yù)設(shè)的比例閾值的段落過濾掉。具體地,,步驟D中所述置信度要求包括:段落的置信度達(dá)到預(yù)設(shè)的置信度閾值,;或者段落的置信度排在所述各段落中的前N個;或者段落的置信度達(dá)到預(yù)設(shè)的置信度閾值且排在所述各段落中的前N個,;其中N為預(yù)設(shè)的正整數(shù),。
更進(jìn)一步地,該方法還包括分別對所述頁面主題段落執(zhí)行以下步驟:E,、對所述頁面主題段落進(jìn)行分詞處理,;F、對分詞處理后得到的各詞語進(jìn)行詞性標(biāo)注,;G,、對分詞處理后得到的各詞語執(zhí)行以下過濾操作中的至少一個:將預(yù)設(shè)的停用詞表所包含的詞語從分詞處理后得到的各詞語中過濾掉;將非獨(dú)立表意的詞語從分詞處理后得到的各詞語中過濾掉,;
如果分詞處理后得到的各詞語中存在互為上下位關(guān)系的詞語,,則將上位的詞語從分詞處理后得到的各詞語中過濾掉,;以及將頁面類型屬性詞從分詞處理后得到的各詞語中過濾掉;H,、將分詞處理后得到的各詞語執(zhí)行步驟G之后余下的詞語確定為所述頁面的主題詞,。其中將頁面類型屬性詞從分詞處理后得到的各詞語中過濾掉包括:如果頁面是預(yù)設(shè)的頁面類型,則將頁面的類型屬性詞從分詞處理后得到的各詞語中過濾掉,;其中預(yù)設(shè)的頁面類型包括:視頻類型,、小說類型、音頻類型,、游戲類型或者論壇類型,。
搜素引擎提取頁面主題的算法裝置包括:段落獲取單元、分段處理單元,、置信度計算單元和主題段落確定單元,;段落獲取單元用于獲取頁面中表達(dá)頁面主題的候選段落并提供給分段處理單元;分段處理單元用于將不可再分段的候選段落發(fā)送給置信度計算單元,,對可再分段的候選段落進(jìn)行分段處理后發(fā)送給置信度計算單元,;置信度計算單元用于計算所述分段處理單元發(fā)送來的各段落的置信度;主題段落確定單元用于根據(jù)置信度計算單元的計算結(jié)果,,將置信度滿足預(yù)設(shè)的置信度要求的段落作為頁面主題段落,。
更進(jìn)一步地,該算法還包括:主題詞提取單元,;主題詞提取單元具體包括:第二分詞子單元,、詞性標(biāo)注子單元、過濾子單元和主題詞確定子單元,;第二分詞子單元用于對頁面主題段落進(jìn)行分詞處理,;詞性標(biāo)注子單元用于對分詞處理后得到的各詞語進(jìn)行詞性標(biāo)注后發(fā)送給過濾子單元;過濾子單元用于對分詞處理后得到的各詞語執(zhí)行以下過濾操作中的至少一個:將預(yù)設(shè)的停用詞表所包含的詞語從分詞處理后得到的各詞語中過濾掉,;將非獨(dú)立表意的詞語從分詞處理后得到的各詞語中過濾掉,;如果分詞處理后得到的各詞語中存在互為上下位關(guān)系的詞語,則將上位的詞語從分詞處理后得到的各詞語中過濾掉,;以及將頁面類型屬性詞從分詞處理后得到的各詞語中過濾掉,;主題詞確定子單元用于將過濾子單元過濾處理后余下的詞語確定為頁面的主題詞。其中,,過濾子單元如果確定頁面是預(yù)設(shè)的頁面類型,則將頁面的類型屬性詞從分詞處理后得到的各詞語中過濾掉,;其中預(yù)設(shè)的頁面類型包括:視頻類型,、小說類型、音頻類型,、游戲類型或者論壇類型,。
百度主題提取計算算法在獲取候選段落后,,如果存在可再分段的候選段落,則對可再分段的候選段落進(jìn)行分段處理,;再依據(jù)進(jìn)一步計算出的各段落的置信度,,選擇滿足置信度要求的段落作為頁面主題段落。這種對候選段落進(jìn)行進(jìn)一步切分且依據(jù)置信度選擇頁面主題段落的方式,,能夠更加準(zhǔn)確地確定頁面主題段落,,即減小提取的頁面主題與實(shí)際頁面主題的偏差。這楊當(dāng)提取的頁面主題段落應(yīng)用在頁面搜索排序中時,,能夠更加準(zhǔn)確地滿足用戶需求,;應(yīng)用在頁面主題詞的確定中時,能夠使得頁面主題詞更加準(zhǔn)確地體現(xiàn)頁面主題,。
本文由:登封招聘網(wǎng)轉(zhuǎn)載發(fā)布,!
|
|