- 積分
- 2305
- 經(jīng)驗(yàn)
- 點(diǎn)
- 威望
- 點(diǎn)
- 金錢(qián)
- 兩
- 魅力
- 點(diǎn)
- 金幣
- 元
- 性別
- 保密
- 在線時(shí)間
- 小時(shí)
- 注冊(cè)時(shí)間
- 2014-4-29
- 最后登錄
- 1970-1-1
|
馬上注冊(cè),,結(jié)交更多好友,,享用更多功能,讓你輕松玩轉(zhuǎn)社區(qū),。
您需要 登錄 才可以下載或查看,,沒(méi)有帳號(hào)?點(diǎn)這里注冊(cè)
x
在當(dāng)今的互聯(lián)網(wǎng)中網(wǎng)頁(yè)數(shù)量日趨龐大,,為了建立網(wǎng)頁(yè)與網(wǎng)頁(yè),、網(wǎng)頁(yè)與網(wǎng)站之間的鏈接關(guān)系,經(jīng)常使用基于超鏈接和/或錨文本的鏈接技術(shù),。一般來(lái)說(shuō),,超鏈接是一種對(duì)象,它以特殊編碼的文本或圖形的形式來(lái)實(shí)現(xiàn)鏈接,,當(dāng)點(diǎn)擊該鏈接時(shí),,相當(dāng)于指令瀏覽器移至同一網(wǎng)頁(yè)內(nèi)的某個(gè)位置、或打開(kāi)一個(gè)新的網(wǎng)頁(yè),、或打開(kāi)一個(gè)新的WWW網(wǎng)站中的網(wǎng)頁(yè)。例如,網(wǎng)頁(yè)中的超鏈接大致分為絕對(duì)URL的超鏈接,、相對(duì)URL的超鏈接和書(shū)簽超鏈接,。另外,超鏈接中的錨文本通常是對(duì)一個(gè)網(wǎng)頁(yè)內(nèi)容的高度概括描述,,與該網(wǎng)頁(yè)有著高度的內(nèi)容相關(guān)性,。將超鏈接的錨文本應(yīng)用于搜索引擎,還可以基于所述錨文本進(jìn)行內(nèi)容相關(guān)度計(jì)算,,以獲取用戶查詢序列與網(wǎng)頁(yè)的相關(guān)度,,從而對(duì)搜索結(jié)果中的網(wǎng)頁(yè)進(jìn)行精確排名。
因此在正常情況下,,錨文本均可以對(duì)超鏈接指向的頁(yè)面內(nèi)容進(jìn)行高度概括,,并相當(dāng)程度上反映出該頁(yè)面的內(nèi)容。但是互聯(lián)網(wǎng)上存在大量的超鏈作弊行為,,錨文本與超鏈接指向頁(yè)面之間不再總是內(nèi)容高度相關(guān),,當(dāng)搜索引擎基于錨文本來(lái)獲取搜索結(jié)果時(shí),甚至還有可能出現(xiàn)與查詢序列內(nèi)容不相關(guān)而排名卻很高的網(wǎng)頁(yè),。有鑒于此,,如何確定超鏈接的錨文本可信度,以評(píng)估和分析超鏈接的錨文本與超鏈接指向頁(yè)面之間內(nèi)容相關(guān)性,,是搜素引擎工程技術(shù)人員迫切解決的一項(xiàng)課題,。
百度搜索引擎提供了一種計(jì)算機(jī)實(shí)現(xiàn)用于確定超鏈接的錨文本可信度的方法。其中該方法包括以下步驟:a獲取與所述超鏈接相對(duì)應(yīng)的錨文本;b根據(jù)所述錨文本獲取與所述錨文本對(duì)應(yīng)的錨文本相關(guān)信息;c根據(jù)所述錨文本相關(guān)信息加權(quán)確定所述超鏈接的錨文本可信度,。并且還提供了一種用于確定超鏈接的錨文本可信度的分析設(shè)備,;其中該分析設(shè)備包括:第一獲取裝置,用于獲取與所述超鏈接相對(duì)應(yīng)的錨文本;第二獲取裝置,,用于根據(jù)所述錨文本獲取與所述錨文本對(duì)應(yīng)的錨文本相關(guān)信息;錨文本可信度確定裝置用于根據(jù)所述錨文本相關(guān)信息,,加權(quán)確定所述超鏈接的錨文本可信度。
與現(xiàn)有技術(shù)相比,,基于錨文本相關(guān)信息來(lái)加權(quán)確定超鏈接的錨文本可信度,,使超鏈接的錨文本與超鏈接指向頁(yè)面之間的內(nèi)容相關(guān)性更加合理。還可精確地檢測(cè)作弊超鏈的虛假錨文本,、過(guò)期超鏈的失效錨文本,,調(diào)整基于所述錨文本可信度對(duì)包含所述虛假錨文本和失效錨文本的超鏈接指向頁(yè)面的權(quán)威度和排名,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量,。擴(kuò)展閱讀:算命最準(zhǔn)的免費(fèi)網(wǎng)站hsm
通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,,其特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
圖1示出依據(jù)一個(gè)用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖;圖2示出依據(jù)優(yōu)選實(shí)例用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖;圖3示出依據(jù)本發(fā)明另一方面的用于確定超鏈接的錨文本可信度的流程圖;圖4示出依據(jù)優(yōu)選實(shí)例用于確定超鏈接的錨文本可信度的流程圖,。附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件,。下面結(jié)合附圖作進(jìn)一步詳細(xì)描述,。




圖1示出依據(jù)一個(gè)用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖。其中,,分析設(shè)備1包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器,、多個(gè)網(wǎng)絡(luò)服務(wù)器集、基于云計(jì)算的計(jì)算機(jī)集合等,,其中,,云計(jì)算是分布式計(jì)算的一種,由一群松散禍合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī),。參照?qǐng)D1,,所述分析設(shè)備1包括第一獲取裝置11、第二獲取裝置12和錨文本可信度確定裝置13,。具體地,,分析設(shè)備1的第一獲取裝置11獲取與所述超鏈接相對(duì)應(yīng)的錨文本;接著,第二獲取裝置12根據(jù)所述錨文本,,獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息;最后,,錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度,。
第一獲取裝置m用于獲取與超鏈接相對(duì)應(yīng)的錨文本,。具體地,第一獲取裝置m例如通過(guò)頁(yè)面技術(shù),,如HTML,DHTML等頁(yè)面技術(shù),,解析超鏈接的鏈接信息或者切分和提取所述超鏈接中的鏈接文字從而獲取與所述超鏈接相對(duì)應(yīng)的錨文本。在浩瀚的互聯(lián)網(wǎng)海洋中,,所有的網(wǎng)站都是可以互通的,,而把它們鏈接在一起的紐帶就是超鏈接,在所述超鏈接中的錨文本既可以包括一個(gè)關(guān)鍵詞,,也可以包括一句話,,此時(shí)錨文本在所述超鏈接所在頁(yè)面的作用是告知瀏覽者在點(diǎn)擊該錨文本后會(huì)從當(dāng)前所在頁(yè)面跳轉(zhuǎn)到哪里。例如,,某大學(xué)的官方網(wǎng)站做了一個(gè)百度主頁(yè)的友情鏈接,,其具體代碼為百度最好的中文搜索引擎是什么
第二獲取裝置12用于根據(jù)所述錨文本,獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息,。具體地,,通過(guò)第一獲取裝置11得到與所述超鏈接相對(duì)應(yīng)的錨文本后,第二獲取裝置12通過(guò)諸如計(jì)算所述錨文本與所述超鏈接指向頁(yè)面之間的關(guān)聯(lián)度來(lái)獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息,。優(yōu)選地,,所述錨文本相關(guān)信息包括以下至少仟一項(xiàng):錨文本在所述超鏈接指向頁(yè)面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;所述錨文本在所述超鏈接所在頁(yè)面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;所述錨文本與所述超鏈接指向頁(yè)面的關(guān)聯(lián)度。以所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接指向頁(yè)面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例來(lái)舉例說(shuō)明,,假定所述超鏈接指向的頁(yè)面為專門(mén)經(jīng)營(yíng)嬰兒用品的網(wǎng)站主頁(yè),,在該網(wǎng)站主頁(yè)的所有入鏈的錨文本中絕大多數(shù)錨文本都是類似于“奶粉”,、“奶瓶”、“嬰兒用品”等鏈接文字,,而當(dāng)前待確定超鏈接的錨文本可信度的錨文本為“科研”時(shí),,計(jì)算當(dāng)前超鏈接的錨文本在所有入鏈的錨文本統(tǒng)計(jì)分析結(jié)果中所占比例,,例如,,當(dāng)前超鏈接的錨文本在所有入鏈的錨文本統(tǒng)計(jì)分析結(jié)果中所占比例非常低,那么所述超鏈接的錨文本可信度也相對(duì)較低,。類似地,,當(dāng)所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接所在頁(yè)面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例時(shí),假定所述超鏈接所在頁(yè)面為某大學(xué)的官方網(wǎng)站主頁(yè),,在該大學(xué)官方網(wǎng)站主頁(yè)的所有出鏈的錨文本中大多數(shù)錨文本都是類似于“高�,!薄ⅰ按髮W(xué)”,、“就業(yè)率”,、“招生說(shuō)明”等鏈接文字,將所有出鏈的錨文本進(jìn)行統(tǒng)計(jì)分析,,計(jì)算所述超鏈接的錨文本在所述統(tǒng)計(jì)分析結(jié)果中所占比例,。例如,若所述超鏈接的錨文本為嬰兒用品,,則該錨文本在所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例較低,。再以所述錨文本相關(guān)信息包括所述錨文本與所述超鏈接指向頁(yè)面的關(guān)聯(lián)度為例,當(dāng)所述錨文本與所述超鏈接指向頁(yè)面的標(biāo)題之間的關(guān)聯(lián)度較高時(shí),,所述超鏈接的錨文本可信度相對(duì)較高;當(dāng)所述錨文本與所述超鏈接指向頁(yè)面的標(biāo)題之間的關(guān)聯(lián)度較低時(shí),,所述超鏈接的錨文本可信度相對(duì)較低。
錨文本可信度確定裝置13用于根據(jù)所述錨文本相關(guān)信息,,加權(quán)確定所述超鏈接的錨文本可信度,。具體地,通過(guò)第二獲取裝置12得到與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息后,,錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息,,結(jié)合所述錨文本相關(guān)信息中每一項(xiàng)的權(quán)重,來(lái)加權(quán)確定所述超鏈接的錨文本可信度,。接上例,,當(dāng)所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接指向頁(yè)面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例、所述錨文本在所述超鏈接所在頁(yè)面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例以及所述錨文本與所述超鏈接指向頁(yè)面的關(guān)聯(lián)度時(shí),,可以結(jié)合所述錨文本在所述超鏈接指向頁(yè)面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例的第一權(quán)重,、所述錨文本在所述超鏈接所在頁(yè)面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例的第二權(quán)重以及所述錨文本與所述超鏈接指向頁(yè)面的關(guān)聯(lián)度的第三權(quán)重,來(lái)加權(quán)確定所述超鏈接的錨文本可信度,。此外,,上述用于確定超鏈接的錨文本可信度的分析設(shè)備可以與現(xiàn)有的搜索引擎相結(jié)合,,構(gòu)成一種新的搜索引擎,現(xiàn)有的搜索引擎可以是采用已知的如百度,、Google,Yahoo等搜索引擎,。
優(yōu)選地,該新的搜索引擎在提供搜索結(jié)果時(shí),,還提供與所述搜索結(jié)果相對(duì)應(yīng)的權(quán)威值,。具體地,與現(xiàn)有搜索引擎相結(jié)合且用于確定超鏈接的錨文本可信度的搜索引擎,,在為用戶提供搜索結(jié)果時(shí),,還通過(guò)諸如特別字體、浮動(dòng)窗口等方式,,提供這些搜索結(jié)果相應(yīng)的頁(yè)面權(quán)威值,。例如,與現(xiàn)有搜索引擎相結(jié)合,,且用于確定超鏈接的錨文本可信度的搜索引擎,,在根據(jù)用戶的查詢序列提供相應(yīng)的搜索結(jié)果時(shí),在這些搜索結(jié)果的頁(yè)面說(shuō)明中添加相應(yīng)頁(yè)面的頁(yè)面權(quán)威值;進(jìn)一步地,,這些頁(yè)面的頁(yè)面權(quán)威值還可以通過(guò)特別字體或浮動(dòng)窗口等方式顯示,,如在用戶的鼠標(biāo)停留在搜索結(jié)果的頁(yè)面鏈接、或者頁(yè)面說(shuō)明時(shí),,以懸浮窗曰顯示該停留搜索結(jié)果相應(yīng)的頁(yè)面權(quán)威值,。
優(yōu)選地,所述分析設(shè)備1還包括第一調(diào)整裝置(圖1未示出),,用于根據(jù)所述超鏈接指向頁(yè)面,,例如通過(guò)分析所述頁(yè)面的網(wǎng)址或頁(yè)面內(nèi)容,當(dāng)確定所述超鏈接指向頁(yè)面為所述頁(yè)面黑名單中的頁(yè)面,,或所述超鏈接指向頁(yè)面的頁(yè)面內(nèi)容與頁(yè)面黑名單中的頁(yè)面的頁(yè)面內(nèi)容一致或近似一致時(shí),,調(diào)整所述超鏈接的錨文本可信度。更優(yōu)選地,,所述分析設(shè)備1還包括更新裝置(圖1未示出),,用于獲取作弊頁(yè)面或不良頁(yè)面,根據(jù)所述作弊頁(yè)面或不良頁(yè)面來(lái)建立或更新所述頁(yè)面黑名單,。優(yōu)選地,,所述分析設(shè)備1還包括第四獲取裝置(圖1未示出),用于獲取所述超鏈接指向頁(yè)面更新前與更新后的相關(guān)度,,并且所述錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息結(jié)合所述相關(guān)度,,確定所述超鏈接的錨文本可信度。具體地,,當(dāng)所述超鏈接指向頁(yè)面進(jìn)行了改版操作或者調(diào)整了頁(yè)面內(nèi)容后,,可以計(jì)算改版前后或內(nèi)容調(diào)整前后所述超鏈接指向頁(yè)面自身的相關(guān)度,,并根據(jù)所述錨文本相關(guān)信息與所述相關(guān)度的結(jié)合,確定所述超鏈接的錨文本可信度,。例如在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),,通過(guò)所述超鏈接指向頁(yè)面更新前與更新后的較高相關(guān)度,來(lái)增加所述超鏈接的錨文本可信度,�,;蛘撸趯⑺鲥^文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),,通過(guò)所述超鏈接指向頁(yè)面更新前與更新后的較低相關(guān)度,,來(lái)降低所述超鏈接的錨文本可信度,。
優(yōu)選地,,所述分析設(shè)備1還包括第五獲取裝置(圖1未示出),用于根據(jù)用戶通過(guò)用戶設(shè)備輸入的查詢序列,,獲取與所述查詢序列相對(duì)應(yīng)的超鏈接,,并且所述第一獲取裝置11還用于根據(jù)所述超鏈接,獲取與所述超鏈接相對(duì)應(yīng)的錨文本,,以及所述分析設(shè)備1還包括排序裝置(圖1未示出),,用于根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述錨文本可信度,,對(duì)與所述超鏈接對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序,。具體地,首先獲取所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,再根據(jù)所述錨文本可信度來(lái)調(diào)整所述查詢序列與所述超鏈接指向頁(yè)面之間的相關(guān)度,,最后使用基于所述錨文本可信度修正后的相關(guān)度結(jié)合所述超鏈接指向頁(yè)面的標(biāo)題和/或正文等其他內(nèi)容信息得出綜合的相關(guān)性權(quán)值,并根據(jù)所述相關(guān)性權(quán)值對(duì)與所述超鏈接相對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序,。在一優(yōu)選實(shí)施例中,,搜索引擎在計(jì)算所述查詢序列與所述超鏈接指向頁(yè)面的基礎(chǔ)相關(guān)性權(quán)值時(shí),首先利用錨文本可信度來(lái)調(diào)整所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,并結(jié)合所述超鏈接指向頁(yè)面的標(biāo)題和正文的內(nèi)容信息得出綜合的相關(guān)性權(quán)值,。由此可知,該技術(shù)用于確定超鏈接的錨文本可信度的分析設(shè)備應(yīng)用到搜索引擎領(lǐng)域,,可以精確地檢測(cè)諸如作弊超鏈的虛假錨文本,、過(guò)期超鏈的失效錨文本,從而調(diào)整基于所述虛假錨文本和失效錨文本的頁(yè)面權(quán)威度和排名,,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量,。
優(yōu)選地,所述分析設(shè)備1還包括分配裝置(圖1未示出),,用于根據(jù)所述錨文本可信度,,將所述超鏈接所在頁(yè)面的權(quán)威值分配給所述超鏈接所在頁(yè)面的出鏈,。具體地,所述超鏈接所在頁(yè)面包括一個(gè)或多個(gè)錨文本,,而這些錨文本分別對(duì)應(yīng)于所述超鏈接所在頁(yè)面的出鏈,,根據(jù)超鏈接的錨文本可信度,可以將所述超鏈接所在頁(yè)面的權(quán)威值分配給所述超鏈接所在頁(yè)面的出鏈,。優(yōu)選地,,所述分析設(shè)備1還包括第二調(diào)整裝置(圖1未示出),用于根據(jù)下述關(guān)系式,,調(diào)整所述超鏈接的錨文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中Cu為第i時(shí)刻未經(jīng)調(diào)整的錨文本可信度,,Ci為第i-1時(shí)刻所述超鏈接的錨文本可信度,λ為0至i之間的修正因子,。具體地,,由于所述超鏈接指向頁(yè)面的內(nèi)容在短時(shí)間內(nèi)可能會(huì)有不可預(yù)期的變化,例如所述超鏈接指向頁(yè)面突然改版或進(jìn)行常規(guī)維護(hù)而無(wú)法訪問(wèn),,為修正所述不可預(yù)期的變化,,以減少錨文本可信度的波動(dòng),從而提高搜索結(jié)果排序的計(jì)算效率與穩(wěn)定性,。例如,,第二調(diào)整裝置根據(jù)錨文本可信度確定裝置13所確定的第i時(shí)刻的錨文本可信度C,第i-1時(shí)刻所述超鏈接的錨文本可信度Ci一1,,并根據(jù)公式Ci=λ× Ci-1+(1-λ)× Cu進(jìn)行調(diào)整,,以獲得所述超鏈接的錨文本可信度Ci,其中,,入為0至1之間的修正因子,。例如,假設(shè)錨文本可信度確定裝置13所確定的第i時(shí)刻的錨文本可信度C為0.8,,第i-1時(shí)刻所述超鏈接的錨文本可信度Ci,,為0. 6,假設(shè)入取0. 25,則通過(guò)計(jì)算,,所述超鏈接的錨文本可信度C,,為0.75。上述數(shù)值僅為優(yōu)選地描述本發(fā)明的方案,,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實(shí)際情況和需求確定上述數(shù)值,。
圖2示出依據(jù)優(yōu)選實(shí)施例的用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖。其中,,所述分析設(shè)備1’包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器,、多個(gè)網(wǎng)絡(luò)服務(wù)器集、基于云計(jì)算的計(jì)算機(jī)集合等,其中,,云計(jì)算是分布式計(jì)算的一種,,由一群松散禍合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。參照?qǐng)D2,,所述分析設(shè)備1’包括第一獲取裝置11',、第二獲取裝置12'、第三獲取裝置14',、錨文本可信度確定裝置13',。具體地,分析設(shè)備1’的第一獲取裝置11’獲取與所述超鏈接相對(duì)應(yīng)的錨文本;接著,,第二獲取裝置12’根據(jù)所述錨文本,,獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息;與此同時(shí),第三獲取裝置14’獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息;最后錨文本可信度確定裝置13’根據(jù)所述錨文本相關(guān)信息,,結(jié)合所述超鏈接相關(guān)信息,,加權(quán)確定所述超鏈接的錨文本可信度。也就是說(shuō),,第二獲取裝置12’和第三獲取裝置14’可以并行地分別獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息以及與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息,。為便于更好地描述第一獲取裝置11'、第二獲取裝置12’和錨文本可信度確定裝置13’分別與圖1所示的第一獲取裝置11,第二獲取裝置12和錨文本可信度確定裝置13’對(duì)應(yīng),,故此處不再贅述,僅通過(guò)引用的方式包含于圖2所描述的優(yōu)選實(shí)施例,。第三獲取裝置14’用于獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息,,并且所述錨文本可信度確定裝置13’還用于根據(jù)所述錨文本相關(guān)信息,結(jié)合所述超鏈接相關(guān)信息,,確定所述超鏈接的錨文本可信度,。優(yōu)選地,所述超鏈接相關(guān)信息包括以下至少任一項(xiàng):所述超鏈接的產(chǎn)生時(shí)間;所述超鏈接的位置;所述超鏈接在所述超鏈接指向頁(yè)面的所有入鏈的統(tǒng)計(jì)分析結(jié)果中所占比例;所述超鏈接在所述超鏈接所在頁(yè)面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例,。以所述超鏈接相關(guān)信息包括所述超鏈接的產(chǎn)生時(shí)間為例,,當(dāng)所述超鏈接與所述超鏈接指向頁(yè)面之間的鏈接期限為10年,而超鏈接的產(chǎn)生時(shí)間為距離現(xiàn)在的時(shí)間間隔為10年以上時(shí),,根據(jù)超鏈接的產(chǎn)生時(shí)間可以確定所述超鏈接為過(guò)期超鏈接,。類似地,當(dāng)所述超鏈接位于反映所述超鏈接指向頁(yè)面的主要內(nèi)容的定語(yǔ)部分時(shí),,根據(jù)超鏈接的位置可以確定所述超鏈接與所述超鏈接指向頁(yè)面的關(guān)聯(lián)度,。再例如,所述超鏈接指向的頁(yè)面為專門(mén)經(jīng)營(yíng)嬰兒用品的網(wǎng)站主頁(yè),,在該網(wǎng)站主頁(yè)的所有入鏈中絕大多數(shù)超鏈接都是類似于“奶粉”,、“奶瓶”、“嬰兒用品”等鏈接信息,而當(dāng)前待確定超鏈接的錨文本可信度的超鏈接為“科研”時(shí),,計(jì)算當(dāng)前超鏈接在所有入鏈統(tǒng)計(jì)分析結(jié)果中所占比例,,例如,當(dāng)前超鏈接在所有入鏈統(tǒng)計(jì)分析結(jié)果中所占比例非常低,,然后與第二獲取裝置12’獲取的錨文本相關(guān)信息相結(jié)合,,以通過(guò)錨文本可信度確定裝置13’來(lái)確定超鏈接的錨文本可信度。類似地,,當(dāng)所述超鏈接相關(guān)信息包括所述超鏈接在所述超鏈接所在頁(yè)面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例時(shí),,假定所述超鏈接所在的頁(yè)面為應(yīng)屆大學(xué)畢業(yè)生的就業(yè)信息公共平臺(tái)主頁(yè),在該就業(yè)信息公共平臺(tái)主頁(yè)的所有出鏈中絕大多數(shù)超鏈接都是包含“electronic","computer","research","company”等字符的超鏈接,,將所有出鏈進(jìn)行統(tǒng)計(jì)分析,,計(jì)算所述超鏈接在所述統(tǒng)計(jì)分析結(jié)果中所占比例,根據(jù)比例數(shù)值來(lái)獲取所述超鏈接相關(guān)信息,。例如,,若所述超鏈接指向的頁(yè)面旨在提供嬰兒用品相關(guān)服務(wù),則該超鏈接在所述超鏈接所在頁(yè)面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例較低,,相應(yīng)地,,將所述超鏈接相關(guān)信息與第二獲取裝置12獲取的錨文本相關(guān)信息相結(jié)合,例如,,將與所述超鏈接相關(guān)信息對(duì)應(yīng)的超鏈接比例數(shù)值結(jié)合與所述錨文本相關(guān)信息對(duì)應(yīng)的錨文本比例數(shù)值,,通過(guò)錨文本可信度確定裝置13’來(lái)確定基于所述超鏈接相關(guān)信息和所述錨文本相關(guān)信息的超鏈接的錨文本可信度。
優(yōu)選地,,在結(jié)合上述圖2所描述的實(shí)施例的基礎(chǔ)上,,所述分析設(shè)備1’還包括第四獲取裝置(圖2未示出),用于獲取所述超鏈接指向頁(yè)面更新前與更新后的相關(guān)度,,并且所述錨文本可信度確定裝置13’根據(jù)所述錨文本相關(guān)信息結(jié)合所述相關(guān)度,,確定所述超鏈接的錨文本可信度。具體地,,當(dāng)所述超鏈接指向頁(yè)面進(jìn)行了改版操作或者調(diào)整了頁(yè)面內(nèi)容后,,可以計(jì)算改版前后或內(nèi)容調(diào)整前后所述超鏈接指向頁(yè)面自身的相關(guān)度,并根據(jù)所述錨文本相關(guān)信息與所述相關(guān)度的結(jié)合,,確定所述超鏈接的錨文本可信度,。例如,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),,通過(guò)所述超鏈接指向頁(yè)面更新前與更新后的較高相關(guān)度,,來(lái)增加所述超鏈接的錨文本可信度�,;蛘�,,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過(guò)所述超鏈接指向頁(yè)面更新前與更新后的較低相關(guān)度,來(lái)降低所述超鏈接的錨文本可信度,。
優(yōu)選地,,所述分析設(shè)備1’還包括第五獲取裝置(圖2未示出),用于根據(jù)用戶通過(guò)用戶設(shè)備輸入的查詢序列,,獲取與所述查詢序列相對(duì)應(yīng)的超鏈接,,并且所述第一獲取裝置11’還用于根據(jù)所述超鏈接,獲取與所述超鏈接相對(duì)應(yīng)的錨文本,,以及所述分析設(shè)備1’還包括排序裝置(圖2未示出),,用于根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述錨文本可信度,,對(duì)與所述超鏈接對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序,。具體地,首先獲取所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,再根據(jù)所述錨文本可信度來(lái)調(diào)整所述查詢序列與所述超鏈接指向頁(yè)面之間的相關(guān)度,,最后使用基于所述錨文本可信度修正后的相關(guān)度結(jié)合所述超鏈接指向頁(yè)面的標(biāo)題和/或正文等其他內(nèi)容信息得出綜合的相關(guān)性權(quán)值,并根據(jù)所述相關(guān)性權(quán)值對(duì)與所述超鏈接相對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序,。在一優(yōu)選實(shí)施例中,,搜索引擎在計(jì)算所述查詢序列與所述超鏈接指向頁(yè)面的基礎(chǔ)相關(guān)性權(quán)值時(shí),首先利用本發(fā)明的錨文本可信度來(lái)調(diào)整所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,,并結(jié)合所述超鏈接指向頁(yè)面的標(biāo)題和正文的內(nèi)容信息得出綜合的相關(guān)性權(quán)值,。由此用于確定超鏈接的錨文本可信度的分析設(shè)備應(yīng)用到搜索引擎領(lǐng)域,可以精確地檢測(cè)諸如作弊超鏈的虛假錨文本,、過(guò)期超鏈的失效錨文本,,從而調(diào)整基于所述虛假錨文本和失效錨文本的頁(yè)面權(quán)威度和排名,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量,。
優(yōu)選地,所述分析設(shè)備1’還包括分配裝置(圖2未示出),,用于根據(jù)所述錨文本可信度,,將所述超鏈接所在頁(yè)面的權(quán)威值分配給所述超鏈接所在頁(yè)面的出鏈。具體地,,所述超鏈接所在頁(yè)面包括一個(gè)或多個(gè)錨文本,,而這些錨文本分別對(duì)應(yīng)于所述超鏈接所在頁(yè)面的出鏈,根據(jù)本發(fā)明的超鏈接的錨文本可信度,,可以將所述超鏈接所在頁(yè)面的權(quán)威值分配給所述超鏈接所在頁(yè)面的出鏈,。優(yōu)選地,所述分析設(shè)備1’還包括第二調(diào)整裝置(圖2未示出),,用于根據(jù)下述關(guān)系式,,調(diào)整所述超鏈接的錨文本可信度Ci=λ× Ci-1+(1-λ)× Cu其中, Cu為第i時(shí)刻未經(jīng)調(diào)整的錨文本可信度,Ci,,為第i-1時(shí)刻所述超鏈接的錨文本可信度,,λ為0至1之間的修正因子。具體地,,由于所述超鏈接指向頁(yè)面的內(nèi)容在短時(shí)間內(nèi)可能會(huì)有不可預(yù)期的變化,,例如所述超鏈接指向頁(yè)面突然改版或進(jìn)行常規(guī)維護(hù)而無(wú)法訪問(wèn),為修正所述不可預(yù)期的變化,,以減少錨文本可信度的波動(dòng),,從而提高搜索結(jié)果排序的計(jì)算效率與穩(wěn)定性。例如,,第二調(diào)整裝置根據(jù)錨文本可信度確定裝置13所確定的第i時(shí)刻的錨文本可信度C,,第i-1時(shí)刻所述超鏈接的錨文本可信度Ci一1,并根據(jù)公式Ci=λ× Ci-1+(1-λ)× Cu進(jìn)行調(diào)整,,以獲得所述超鏈接的錨文本可信度Ci,,其中,入為0至1之間的修正因子,。例如,,假設(shè)錨文本可信度確定裝置13所確定的第i時(shí)刻的錨文本可信度C為0.8,第i-1時(shí)刻所述超鏈接的錨文本可信度Ci,,為0. 6,假設(shè)入取0.25,,則通過(guò)計(jì)算,所述超鏈接的錨文本可信度C,,為0.75,。上述數(shù)值僅為優(yōu)選地描述本發(fā)明的方案,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實(shí)際情況和需求確定上述數(shù)值,。
本文由:登封招聘網(wǎng)轉(zhuǎn)載發(fā)布,!
|
|