- 積分
- 2305
- 經(jīng)驗
- 點
- 威望
- 點
- 金錢
- 兩
- 魅力
- 點
- 金幣
- 元
- 性別
- 保密
- 在線時間
- 小時
- 注冊時間
- 2014-4-29
- 最后登錄
- 1970-1-1
|
馬上注冊,,結(jié)交更多好友,,享用更多功能,,讓你輕松玩轉(zhuǎn)社區(qū),。
您需要 登錄 才可以下載或查看,,沒有帳號,?點這里注冊
x
在當今的互聯(lián)網(wǎng)中網(wǎng)頁數(shù)量日趨龐大,,為了建立網(wǎng)頁與網(wǎng)頁、網(wǎng)頁與網(wǎng)站之間的鏈接關(guān)系,,經(jīng)常使用基于超鏈接和/或錨文本的鏈接技術(shù),。一般來說,超鏈接是一種對象,,它以特殊編碼的文本或圖形的形式來實現(xiàn)鏈接,,當點擊該鏈接時,相當于指令瀏覽器移至同一網(wǎng)頁內(nèi)的某個位置,、或打開一個新的網(wǎng)頁,、或打開一個新的WWW網(wǎng)站中的網(wǎng)頁,。例如,網(wǎng)頁中的超鏈接大致分為絕對URL的超鏈接,、相對URL的超鏈接和書簽超鏈接。另外,,超鏈接中的錨文本通常是對一個網(wǎng)頁內(nèi)容的高度概括描述,,與該網(wǎng)頁有著高度的內(nèi)容相關(guān)性。將超鏈接的錨文本應(yīng)用于搜索引擎,,還可以基于所述錨文本進行內(nèi)容相關(guān)度計算,,以獲取用戶查詢序列與網(wǎng)頁的相關(guān)度,從而對搜索結(jié)果中的網(wǎng)頁進行精確排名,。
因此在正常情況下,,錨文本均可以對超鏈接指向的頁面內(nèi)容進行高度概括,并相當程度上反映出該頁面的內(nèi)容,。但是互聯(lián)網(wǎng)上存在大量的超鏈作弊行為,,錨文本與超鏈接指向頁面之間不再總是內(nèi)容高度相關(guān),當搜索引擎基于錨文本來獲取搜索結(jié)果時,,甚至還有可能出現(xiàn)與查詢序列內(nèi)容不相關(guān)而排名卻很高的網(wǎng)頁,。有鑒于此,如何確定超鏈接的錨文本可信度,,以評估和分析超鏈接的錨文本與超鏈接指向頁面之間內(nèi)容相關(guān)性,,是搜素引擎工程技術(shù)人員迫切解決的一項課題。
百度搜索引擎提供了一種計算機實現(xiàn)用于確定超鏈接的錨文本可信度的方法,。其中該方法包括以下步驟:a獲取與所述超鏈接相對應(yīng)的錨文本;b根據(jù)所述錨文本獲取與所述錨文本對應(yīng)的錨文本相關(guān)信息;c根據(jù)所述錨文本相關(guān)信息加權(quán)確定所述超鏈接的錨文本可信度,。并且還提供了一種用于確定超鏈接的錨文本可信度的分析設(shè)備;其中該分析設(shè)備包括:第一獲取裝置,,用于獲取與所述超鏈接相對應(yīng)的錨文本;第二獲取裝置,,用于根據(jù)所述錨文本獲取與所述錨文本對應(yīng)的錨文本相關(guān)信息;錨文本可信度確定裝置用于根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度,。
與現(xiàn)有技術(shù)相比,,基于錨文本相關(guān)信息來加權(quán)確定超鏈接的錨文本可信度,使超鏈接的錨文本與超鏈接指向頁面之間的內(nèi)容相關(guān)性更加合理,。還可精確地檢測作弊超鏈的虛假錨文本,、過期超鏈的失效錨文本,調(diào)整基于所述錨文本可信度對包含所述虛假錨文本和失效錨文本的超鏈接指向頁面的權(quán)威度和排名,,進而提升搜索引擎搜索結(jié)果的排序質(zhì)量,。擴展閱讀:算命最準的免費網(wǎng)站hsm
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,其特征,、目的和優(yōu)點將會變得更明顯:
圖1示出依據(jù)一個用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖;圖2示出依據(jù)優(yōu)選實例用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖;圖3示出依據(jù)本發(fā)明另一方面的用于確定超鏈接的錨文本可信度的流程圖;圖4示出依據(jù)優(yōu)選實例用于確定超鏈接的錨文本可信度的流程圖,。附圖中相同或相似的附圖標記代表相同或相似的部件。下面結(jié)合附圖作進一步詳細描述。




圖1示出依據(jù)一個用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖,。其中,,分析設(shè)備1包括但不限于單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集,、基于云計算的計算機集合等,,其中,云計算是分布式計算的一種,,由一群松散禍合的計算機集組成的一個超級虛擬計算機,。參照圖1,所述分析設(shè)備1包括第一獲取裝置11,、第二獲取裝置12和錨文本可信度確定裝置13,。具體地,分析設(shè)備1的第一獲取裝置11獲取與所述超鏈接相對應(yīng)的錨文本;接著,,第二獲取裝置12根據(jù)所述錨文本,,獲取與所述錨文本相對應(yīng)的錨文本相關(guān)信息;最后,錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息,,加權(quán)確定所述超鏈接的錨文本可信度,。
第一獲取裝置m用于獲取與超鏈接相對應(yīng)的錨文本。具體地,,第一獲取裝置m例如通過頁面技術(shù),,如HTML,DHTML等頁面技術(shù),解析超鏈接的鏈接信息或者切分和提取所述超鏈接中的鏈接文字從而獲取與所述超鏈接相對應(yīng)的錨文本,。在浩瀚的互聯(lián)網(wǎng)海洋中,,所有的網(wǎng)站都是可以互通的,而把它們鏈接在一起的紐帶就是超鏈接,,在所述超鏈接中的錨文本既可以包括一個關(guān)鍵詞,,也可以包括一句話,此時錨文本在所述超鏈接所在頁面的作用是告知瀏覽者在點擊該錨文本后會從當前所在頁面跳轉(zhuǎn)到哪里,。例如,,某大學的官方網(wǎng)站做了一個百度主頁的友情鏈接,其具體代碼為百度最好的中文搜索引擎是什么
第二獲取裝置12用于根據(jù)所述錨文本,,獲取與所述錨文本相對應(yīng)的錨文本相關(guān)信息,。具體地,通過第一獲取裝置11得到與所述超鏈接相對應(yīng)的錨文本后,,第二獲取裝置12通過諸如計算所述錨文本與所述超鏈接指向頁面之間的關(guān)聯(lián)度來獲取與所述錨文本相對應(yīng)的錨文本相關(guān)信息,。優(yōu)選地,所述錨文本相關(guān)信息包括以下至少仟一項:錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例;所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例;所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度,。以所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例來舉例說明,,假定所述超鏈接指向的頁面為專門經(jīng)營嬰兒用品的網(wǎng)站主頁,,在該網(wǎng)站主頁的所有入鏈的錨文本中絕大多數(shù)錨文本都是類似于“奶粉”、“奶瓶”,、“嬰兒用品”等鏈接文字,,而當前待確定超鏈接的錨文本可信度的錨文本為“科研”時,計算當前超鏈接的錨文本在所有入鏈的錨文本統(tǒng)計分析結(jié)果中所占比例,,例如,,當前超鏈接的錨文本在所有入鏈的錨文本統(tǒng)計分析結(jié)果中所占比例非常低,那么所述超鏈接的錨文本可信度也相對較低,。類似地,當所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例時,,假定所述超鏈接所在頁面為某大學的官方網(wǎng)站主頁,,在該大學官方網(wǎng)站主頁的所有出鏈的錨文本中大多數(shù)錨文本都是類似于“高校”,、“大學”,、“就業(yè)率”、“招生說明”等鏈接文字,,將所有出鏈的錨文本進行統(tǒng)計分析,,計算所述超鏈接的錨文本在所述統(tǒng)計分析結(jié)果中所占比例。例如,,若所述超鏈接的錨文本為嬰兒用品,,則該錨文本在所有出鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例較低。再以所述錨文本相關(guān)信息包括所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度為例,,當所述錨文本與所述超鏈接指向頁面的標題之間的關(guān)聯(lián)度較高時,,所述超鏈接的錨文本可信度相對較高;當所述錨文本與所述超鏈接指向頁面的標題之間的關(guān)聯(lián)度較低時,所述超鏈接的錨文本可信度相對較低,。
錨文本可信度確定裝置13用于根據(jù)所述錨文本相關(guān)信息,,加權(quán)確定所述超鏈接的錨文本可信度。具體地,,通過第二獲取裝置12得到與所述錨文本相對應(yīng)的錨文本相關(guān)信息后,,錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息,結(jié)合所述錨文本相關(guān)信息中每一項的權(quán)重,,來加權(quán)確定所述超鏈接的錨文本可信度,。接上例,當所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例,、所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例以及所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度時,,可以結(jié)合所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例的第一權(quán)重、所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計分析結(jié)果中所占比例的第二權(quán)重以及所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度的第三權(quán)重,,來加權(quán)確定所述超鏈接的錨文本可信度,。此外,,上述用于確定超鏈接的錨文本可信度的分析設(shè)備可以與現(xiàn)有的搜索引擎相結(jié)合,構(gòu)成一種新的搜索引擎,,現(xiàn)有的搜索引擎可以是采用已知的如百度,、Google,Yahoo等搜索引擎。
優(yōu)選地,,該新的搜索引擎在提供搜索結(jié)果時,,還提供與所述搜索結(jié)果相對應(yīng)的權(quán)威值。具體地,,與現(xiàn)有搜索引擎相結(jié)合且用于確定超鏈接的錨文本可信度的搜索引擎,,在為用戶提供搜索結(jié)果時,還通過諸如特別字體,、浮動窗口等方式,,提供這些搜索結(jié)果相應(yīng)的頁面權(quán)威值。例如,,與現(xiàn)有搜索引擎相結(jié)合,,且用于確定超鏈接的錨文本可信度的搜索引擎,在根據(jù)用戶的查詢序列提供相應(yīng)的搜索結(jié)果時,,在這些搜索結(jié)果的頁面說明中添加相應(yīng)頁面的頁面權(quán)威值;進一步地,,這些頁面的頁面權(quán)威值還可以通過特別字體或浮動窗口等方式顯示,如在用戶的鼠標停留在搜索結(jié)果的頁面鏈接,、或者頁面說明時,,以懸浮窗曰顯示該停留搜索結(jié)果相應(yīng)的頁面權(quán)威值。
優(yōu)選地,,所述分析設(shè)備1還包括第一調(diào)整裝置(圖1未示出),,用于根據(jù)所述超鏈接指向頁面,例如通過分析所述頁面的網(wǎng)址或頁面內(nèi)容,,當確定所述超鏈接指向頁面為所述頁面黑名單中的頁面,,或所述超鏈接指向頁面的頁面內(nèi)容與頁面黑名單中的頁面的頁面內(nèi)容一致或近似一致時,調(diào)整所述超鏈接的錨文本可信度,。更優(yōu)選地,,所述分析設(shè)備1還包括更新裝置(圖1未示出),用于獲取作弊頁面或不良頁面,,根據(jù)所述作弊頁面或不良頁面來建立或更新所述頁面黑名單,。優(yōu)選地,所述分析設(shè)備1還包括第四獲取裝置(圖1未示出),,用于獲取所述超鏈接指向頁面更新前與更新后的相關(guān)度,,并且所述錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息結(jié)合所述相關(guān)度,確定所述超鏈接的錨文本可信度,。具體地,,當所述超鏈接指向頁面進行了改版操作或者調(diào)整了頁面內(nèi)容后,,可以計算改版前后或內(nèi)容調(diào)整前后所述超鏈接指向頁面自身的相關(guān)度,并根據(jù)所述錨文本相關(guān)信息與所述相關(guān)度的結(jié)合,,確定所述超鏈接的錨文本可信度,。例如在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時,通過所述超鏈接指向頁面更新前與更新后的較高相關(guān)度,,來增加所述超鏈接的錨文本可信度,。或者,,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時,,通過所述超鏈接指向頁面更新前與更新后的較低相關(guān)度,來降低所述超鏈接的錨文本可信度,。
優(yōu)選地,,所述分析設(shè)備1還包括第五獲取裝置(圖1未示出),用于根據(jù)用戶通過用戶設(shè)備輸入的查詢序列,,獲取與所述查詢序列相對應(yīng)的超鏈接,并且所述第一獲取裝置11還用于根據(jù)所述超鏈接,,獲取與所述超鏈接相對應(yīng)的錨文本,,以及所述分析設(shè)備1還包括排序裝置(圖1未示出),用于根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,并結(jié)合所述錨文本可信度,,對與所述超鏈接對應(yīng)的搜索結(jié)果進行排序。具體地,,首先獲取所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,再根據(jù)所述錨文本可信度來調(diào)整所述查詢序列與所述超鏈接指向頁面之間的相關(guān)度,最后使用基于所述錨文本可信度修正后的相關(guān)度結(jié)合所述超鏈接指向頁面的標題和/或正文等其他內(nèi)容信息得出綜合的相關(guān)性權(quán)值,,并根據(jù)所述相關(guān)性權(quán)值對與所述超鏈接相對應(yīng)的搜索結(jié)果進行排序,。在一優(yōu)選實施例中,搜索引擎在計算所述查詢序列與所述超鏈接指向頁面的基礎(chǔ)相關(guān)性權(quán)值時,,首先利用錨文本可信度來調(diào)整所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,并結(jié)合所述超鏈接指向頁面的標題和正文的內(nèi)容信息得出綜合的相關(guān)性權(quán)值。由此可知,,該技術(shù)用于確定超鏈接的錨文本可信度的分析設(shè)備應(yīng)用到搜索引擎領(lǐng)域,,可以精確地檢測諸如作弊超鏈的虛假錨文本、過期超鏈的失效錨文本,,從而調(diào)整基于所述虛假錨文本和失效錨文本的頁面權(quán)威度和排名,,進而提升搜索引擎搜索結(jié)果的排序質(zhì)量。
優(yōu)選地,,所述分析設(shè)備1還包括分配裝置(圖1未示出),,用于根據(jù)所述錨文本可信度,,將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。具體地,,所述超鏈接所在頁面包括一個或多個錨文本,,而這些錨文本分別對應(yīng)于所述超鏈接所在頁面的出鏈,根據(jù)超鏈接的錨文本可信度,,可以將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈,。優(yōu)選地,所述分析設(shè)備1還包括第二調(diào)整裝置(圖1未示出),,用于根據(jù)下述關(guān)系式,,調(diào)整所述超鏈接的錨文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中Cu為第i時刻未經(jīng)調(diào)整的錨文本可信度,Ci為第i-1時刻所述超鏈接的錨文本可信度,,λ為0至i之間的修正因子,。具體地,由于所述超鏈接指向頁面的內(nèi)容在短時間內(nèi)可能會有不可預(yù)期的變化,,例如所述超鏈接指向頁面突然改版或進行常規(guī)維護而無法訪問,,為修正所述不可預(yù)期的變化,以減少錨文本可信度的波動,,從而提高搜索結(jié)果排序的計算效率與穩(wěn)定性,。例如,第二調(diào)整裝置根據(jù)錨文本可信度確定裝置13所確定的第i時刻的錨文本可信度C,,第i-1時刻所述超鏈接的錨文本可信度Ci一1,,并根據(jù)公式Ci=λ× Ci-1+(1-λ)× Cu進行調(diào)整,以獲得所述超鏈接的錨文本可信度Ci,,其中,,入為0至1之間的修正因子。例如,,假設(shè)錨文本可信度確定裝置13所確定的第i時刻的錨文本可信度C為0.8,,第i-1時刻所述超鏈接的錨文本可信度Ci,為0. 6,假設(shè)入取0. 25,,則通過計算,,所述超鏈接的錨文本可信度C,為0.75,。上述數(shù)值僅為優(yōu)選地描述本發(fā)明的方案,,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實際情況和需求確定上述數(shù)值。
圖2示出依據(jù)優(yōu)選實施例的用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖,。其中,,所述分析設(shè)備1’包括但不限于單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集,、基于云計算的計算機集合等,,其中,,云計算是分布式計算的一種,由一群松散禍合的計算機集組成的一個超級虛擬計算機,。參照圖2,,所述分析設(shè)備1’包括第一獲取裝置11'、第二獲取裝置12',、第三獲取裝置14',、錨文本可信度確定裝置13'。具體地,,分析設(shè)備1’的第一獲取裝置11’獲取與所述超鏈接相對應(yīng)的錨文本;接著,,第二獲取裝置12’根據(jù)所述錨文本,獲取與所述錨文本相對應(yīng)的錨文本相關(guān)信息;與此同時,,第三獲取裝置14’獲取與所述超鏈接相對應(yīng)的超鏈接相關(guān)信息;最后錨文本可信度確定裝置13’根據(jù)所述錨文本相關(guān)信息,,結(jié)合所述超鏈接相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度,。也就是說,,第二獲取裝置12’和第三獲取裝置14’可以并行地分別獲取與所述錨文本相對應(yīng)的錨文本相關(guān)信息以及與所述超鏈接相對應(yīng)的超鏈接相關(guān)信息。為便于更好地描述第一獲取裝置11',、第二獲取裝置12’和錨文本可信度確定裝置13’分別與圖1所示的第一獲取裝置11,第二獲取裝置12和錨文本可信度確定裝置13’對應(yīng),,故此處不再贅述,僅通過引用的方式包含于圖2所描述的優(yōu)選實施例,。第三獲取裝置14’用于獲取與所述超鏈接相對應(yīng)的超鏈接相關(guān)信息,并且所述錨文本可信度確定裝置13’還用于根據(jù)所述錨文本相關(guān)信息,,結(jié)合所述超鏈接相關(guān)信息,,確定所述超鏈接的錨文本可信度。優(yōu)選地,,所述超鏈接相關(guān)信息包括以下至少任一項:所述超鏈接的產(chǎn)生時間;所述超鏈接的位置;所述超鏈接在所述超鏈接指向頁面的所有入鏈的統(tǒng)計分析結(jié)果中所占比例;所述超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計分析結(jié)果中所占比例,。以所述超鏈接相關(guān)信息包括所述超鏈接的產(chǎn)生時間為例,當所述超鏈接與所述超鏈接指向頁面之間的鏈接期限為10年,,而超鏈接的產(chǎn)生時間為距離現(xiàn)在的時間間隔為10年以上時,,根據(jù)超鏈接的產(chǎn)生時間可以確定所述超鏈接為過期超鏈接。類似地,,當所述超鏈接位于反映所述超鏈接指向頁面的主要內(nèi)容的定語部分時,,根據(jù)超鏈接的位置可以確定所述超鏈接與所述超鏈接指向頁面的關(guān)聯(lián)度。再例如,,所述超鏈接指向的頁面為專門經(jīng)營嬰兒用品的網(wǎng)站主頁,,在該網(wǎng)站主頁的所有入鏈中絕大多數(shù)超鏈接都是類似于“奶粉”、“奶瓶”,、“嬰兒用品”等鏈接信息,,而當前待確定超鏈接的錨文本可信度的超鏈接為“科研”時,,計算當前超鏈接在所有入鏈統(tǒng)計分析結(jié)果中所占比例,例如,,當前超鏈接在所有入鏈統(tǒng)計分析結(jié)果中所占比例非常低,,然后與第二獲取裝置12’獲取的錨文本相關(guān)信息相結(jié)合,以通過錨文本可信度確定裝置13’來確定超鏈接的錨文本可信度,。類似地,,當所述超鏈接相關(guān)信息包括所述超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計分析結(jié)果中所占比例時,假定所述超鏈接所在的頁面為應(yīng)屆大學畢業(yè)生的就業(yè)信息公共平臺主頁,,在該就業(yè)信息公共平臺主頁的所有出鏈中絕大多數(shù)超鏈接都是包含“electronic","computer","research","company”等字符的超鏈接,,將所有出鏈進行統(tǒng)計分析,計算所述超鏈接在所述統(tǒng)計分析結(jié)果中所占比例,,根據(jù)比例數(shù)值來獲取所述超鏈接相關(guān)信息,。例如,若所述超鏈接指向的頁面旨在提供嬰兒用品相關(guān)服務(wù),,則該超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計分析結(jié)果中所占比例較低,,相應(yīng)地,將所述超鏈接相關(guān)信息與第二獲取裝置12獲取的錨文本相關(guān)信息相結(jié)合,,例如,,將與所述超鏈接相關(guān)信息對應(yīng)的超鏈接比例數(shù)值結(jié)合與所述錨文本相關(guān)信息對應(yīng)的錨文本比例數(shù)值,通過錨文本可信度確定裝置13’來確定基于所述超鏈接相關(guān)信息和所述錨文本相關(guān)信息的超鏈接的錨文本可信度,。
優(yōu)選地,,在結(jié)合上述圖2所描述的實施例的基礎(chǔ)上,所述分析設(shè)備1’還包括第四獲取裝置(圖2未示出),,用于獲取所述超鏈接指向頁面更新前與更新后的相關(guān)度,,并且所述錨文本可信度確定裝置13’根據(jù)所述錨文本相關(guān)信息結(jié)合所述相關(guān)度,確定所述超鏈接的錨文本可信度,。具體地,,當所述超鏈接指向頁面進行了改版操作或者調(diào)整了頁面內(nèi)容后,可以計算改版前后或內(nèi)容調(diào)整前后所述超鏈接指向頁面自身的相關(guān)度,,并根據(jù)所述錨文本相關(guān)信息與所述相關(guān)度的結(jié)合,,確定所述超鏈接的錨文本可信度。例如,,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時,,通過所述超鏈接指向頁面更新前與更新后的較高相關(guān)度,來增加所述超鏈接的錨文本可信度,�,;蛘撸趯⑺鲥^文本相關(guān)信息與所述相關(guān)度相結(jié)合時,通過所述超鏈接指向頁面更新前與更新后的較低相關(guān)度,,來降低所述超鏈接的錨文本可信度,。
優(yōu)選地,所述分析設(shè)備1’還包括第五獲取裝置(圖2未示出),,用于根據(jù)用戶通過用戶設(shè)備輸入的查詢序列,,獲取與所述查詢序列相對應(yīng)的超鏈接,并且所述第一獲取裝置11’還用于根據(jù)所述超鏈接,,獲取與所述超鏈接相對應(yīng)的錨文本,,以及所述分析設(shè)備1’還包括排序裝置(圖2未示出),用于根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,并結(jié)合所述錨文本可信度,,對與所述超鏈接對應(yīng)的搜索結(jié)果進行排序。具體地,,首先獲取所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,再根據(jù)所述錨文本可信度來調(diào)整所述查詢序列與所述超鏈接指向頁面之間的相關(guān)度,最后使用基于所述錨文本可信度修正后的相關(guān)度結(jié)合所述超鏈接指向頁面的標題和/或正文等其他內(nèi)容信息得出綜合的相關(guān)性權(quán)值,,并根據(jù)所述相關(guān)性權(quán)值對與所述超鏈接相對應(yīng)的搜索結(jié)果進行排序,。在一優(yōu)選實施例中,搜索引擎在計算所述查詢序列與所述超鏈接指向頁面的基礎(chǔ)相關(guān)性權(quán)值時,,首先利用本發(fā)明的錨文本可信度來調(diào)整所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,并結(jié)合所述超鏈接指向頁面的標題和正文的內(nèi)容信息得出綜合的相關(guān)性權(quán)值。由此用于確定超鏈接的錨文本可信度的分析設(shè)備應(yīng)用到搜索引擎領(lǐng)域,,可以精確地檢測諸如作弊超鏈的虛假錨文本,、過期超鏈的失效錨文本,從而調(diào)整基于所述虛假錨文本和失效錨文本的頁面權(quán)威度和排名,,進而提升搜索引擎搜索結(jié)果的排序質(zhì)量,。
優(yōu)選地,所述分析設(shè)備1’還包括分配裝置(圖2未示出),,用于根據(jù)所述錨文本可信度,,將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈,。具體地,,所述超鏈接所在頁面包括一個或多個錨文本,而這些錨文本分別對應(yīng)于所述超鏈接所在頁面的出鏈,,根據(jù)本發(fā)明的超鏈接的錨文本可信度,,可以將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。優(yōu)選地,,所述分析設(shè)備1’還包括第二調(diào)整裝置(圖2未示出),,用于根據(jù)下述關(guān)系式,調(diào)整所述超鏈接的錨文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中, Cu為第i時刻未經(jīng)調(diào)整的錨文本可信度,,Ci,,為第i-1時刻所述超鏈接的錨文本可信度,λ為0至1之間的修正因子,。具體地,,由于所述超鏈接指向頁面的內(nèi)容在短時間內(nèi)可能會有不可預(yù)期的變化,例如所述超鏈接指向頁面突然改版或進行常規(guī)維護而無法訪問,,為修正所述不可預(yù)期的變化,,以減少錨文本可信度的波動,從而提高搜索結(jié)果排序的計算效率與穩(wěn)定性,。例如,,第二調(diào)整裝置根據(jù)錨文本可信度確定裝置13所確定的第i時刻的錨文本可信度C,第i-1時刻所述超鏈接的錨文本可信度Ci一1,,并根據(jù)公式Ci=λ× Ci-1+(1-λ)× Cu進行調(diào)整,,以獲得所述超鏈接的錨文本可信度Ci,其中,,入為0至1之間的修正因子,。例如,假設(shè)錨文本可信度確定裝置13所確定的第i時刻的錨文本可信度C為0.8,,第i-1時刻所述超鏈接的錨文本可信度Ci,,為0. 6,假設(shè)入取0.25,則通過計算,,所述超鏈接的錨文本可信度C,,為0.75。上述數(shù)值僅為優(yōu)選地描述本發(fā)明的方案,,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實際情況和需求確定上述數(shù)值,。
本文由:登封招聘網(wǎng)轉(zhuǎn)載發(fā)布!
|
|