- 積分
- 2305
- 經(jīng)驗
- 點
- 威望
- 點
- 金錢
- 兩
- 魅力
- 點
- 金幣
- 元
- 性別
- 保密
- 在線時間
- 小時
- 注冊時間
- 2014-4-29
- 最后登錄
- 1970-1-1
|
馬上注冊,,結交更多好友,,享用更多功能,讓你輕松玩轉(zhuǎn)社區(qū),。
您需要 登錄 才可以下載或查看,,沒有帳號?點這里注冊
x
黑鏈又稱暗鏈,、隱藏鏈接,,是黑帽手法中相當普遍的一種手段,是指用非正常手段獲取的其他網(wǎng)頁的反向鏈接,,最常見的黑鏈就是通過各種網(wǎng)頁程序漏洞獲取搜索引擎權重或網(wǎng)頁級別(PR)較高的網(wǎng)頁的管理權限代碼(Webshell),,進而在被黑網(wǎng)頁上鏈接自己的網(wǎng)頁。該手段是搜索引擎中進行作弊最有效最迅速的方法之一,,在暴利行業(yè)使用尤多,,例如游戲、外掛,、彩鈴等業(yè)務的行業(yè)�,,F(xiàn)有的黑鏈檢測方法主要包括以下幾種:
其一、網(wǎng)站管理人員通過經(jīng)常查看網(wǎng)頁源代碼的方式,,檢查網(wǎng)頁是否被掛上黑鏈,。其二、查看網(wǎng)頁中的鏈接是否可訪問,,如果存在未知鏈接,,則懷疑被掛上黑鏈,刪除該未知鏈接,。其三,、通過FTP工具查看網(wǎng)頁文件的修改時間,如果存在修改時間異于大多數(shù)文件修改時間的文件,,則該文件就可能被修改了文件源代碼,,掛了黑鏈,。上述幾種黑鏈檢測方法都需要大量的人工操作,一方面浪費人力資源,,對網(wǎng)站管理人員的黑鏈知識提出較高要求,,無法實現(xiàn)黑鏈的自動檢測;另一方面,對于新出現(xiàn)的黑鏈作弊方式,,很難及時有效地發(fā)現(xiàn),。擴展閱讀:算命最準的免費網(wǎng)站hsm
百度搜素引擎提供了一種檢測黑鏈的算法處理裝置,以便于實現(xiàn)黑鏈的自動檢測,。具體技術方案如下:
S1,、提取待檢測網(wǎng)頁的超鏈接,逐一對獲取的超鏈接執(zhí)行黑鏈檢測流程.黑鏈檢測流程包括:Al,、判斷超鏈接的視覺特征參數(shù)是否滿足預設的不可見特征要求,,如果是,則確定該超鏈接為黑鏈。百度黑鏈檢測算法的測試案例中在黑鏈檢測流程的步驟Al中,,如果判斷結果為否,,則進一步執(zhí)行步驟A2;A2、判斷該超鏈接的外鏈引用次數(shù)是否超過預設的次數(shù)閥值,,如果是,,則確定該超鏈接為黑鏈。
百度黑鏈檢測算法的測試案例中如果所述A2的判斷結果為否,,則將該超鏈接加入白名單數(shù)據(jù)庫,,結束對該超鏈接的黑鏈檢測流程,。百度黑鏈檢測算法的測試案例中在所述步驟Sl之前還包括:SO、將所述待檢測網(wǎng)頁的網(wǎng)址與已有的白名單數(shù)據(jù)庫進行匹配,,如果匹配得上,則確定所述待檢測網(wǎng)頁不存在黑鏈,,結束流程;否則繼續(xù)執(zhí)行所述步驟Slo百度黑鏈檢測算法的測試案例中所述確定該超鏈接為黑鏈進一步包括:獲取該超鏈接的網(wǎng)頁內(nèi)容特征;將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進行匹配,,如果匹配得上,,則確定該超鏈接為黑鏈。
百度黑鏈檢測算法的測試案例中所述惡意特征數(shù)據(jù)庫中存儲有被識別為黑鏈的網(wǎng)頁的關鍵詞;所述將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進行匹配具體包括:將獲取的該超鏈接的網(wǎng)頁標題title或網(wǎng)頁元信息l}Zeta與所述惡意特征數(shù)據(jù)庫中存儲的關鍵詞進行匹配,。
百度黑鏈檢測算法的測試案例中在確定出該超鏈接為黑鏈后,進一步包括:從該黑鏈的網(wǎng)頁中進一步提取關鍵詞,將該關鍵詞存儲于惡意特征數(shù)據(jù)庫,。百度黑鏈檢測算法的測試案例中在所述步驟Al中,當所述視覺特征參數(shù)為顏色設置參數(shù)時,,對應的不可見特征要求為該超鏈接的顏色設置參數(shù)與所述待檢測網(wǎng)頁背景顏色一致;或者當所述視覺特征參數(shù)為字體參數(shù)時,對應的不可見特征要求為該超鏈接的字體參數(shù)的值小于或等于預設的字體參數(shù)閥值;或者當所述視覺特征參數(shù)為關鍵字位置參數(shù)時,,對應的不可見特征要求為該超鏈接的關鍵字位置在所述待檢測網(wǎng)頁的可見范圍之外;或者當所述視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時,,對應的不可見特征要求為該超鏈接以跑馬燈形式閃現(xiàn)或者不顯示,。
百度黑鏈檢測算法的測試案例中所述惡意特征數(shù)據(jù)庫存儲有被確定為黑鏈的鏈接;該方法還包括:從網(wǎng)頁庫中獲取超鏈接中包含了所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁,對該網(wǎng)頁中的其他超鏈接逐一執(zhí)行所述黑鏈檢測流程,,并將檢測出的黑鏈加入所述惡意特征數(shù)據(jù)庫;或者,,從網(wǎng)頁庫中找出與所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁相似度滿足預設相似度要求的網(wǎng)頁,,將找出的網(wǎng)頁作為待檢測網(wǎng)頁轉(zhuǎn)至步驟Sl處開始執(zhí)行,然后將檢測出的黑鏈加入所述惡意特征數(shù)據(jù)庫,。一種檢測黑鏈的裝置,該裝置包括:鏈接提取模塊,,用于提取待檢測網(wǎng)頁的超鏈接,,并將提取的超鏈接逐一提供給檢測模塊;檢測模塊,,用于判斷超鏈接的視覺特征參數(shù)是否滿足預設的不可見特征要求,,如果是,則將該超鏈接發(fā)送給黑鏈確定模塊;黑鏈確定模塊,,用于將接收到的超鏈接確定為黑鏈。
百度黑鏈檢測算法的測試案例中該裝置還包括:引用次數(shù)判斷模塊,,用于在所述檢測模塊的判斷結果為否時,,判斷該超鏈接的外鏈引用次數(shù)是否超過預設的次數(shù)閡值,,如果是,則將該超鏈接發(fā)送給所述黑鏈確定模塊,。百度黑鏈檢測算法的測試案例中該裝置還包括:白名單維護模塊,,用于在所述引用次數(shù)判斷模塊的判斷結果為否時,,將該超鏈接加入白名單數(shù)據(jù)庫。百度黑鏈檢測算法的測試案例中該裝置還包括:白名單判斷模塊,,用于將所述待檢測網(wǎng)頁的網(wǎng)址與已有白名單數(shù)據(jù)庫進行匹配,如果匹配得上,,則確定所述待檢測網(wǎng)頁不存在黑鏈;否則,,觸發(fā)所述鏈接提取模塊。百度黑鏈檢測算法的測試案例中該裝置還包括:惡意特征匹配模塊,,用于獲取發(fā)送給所述黑鏈確定模塊的超鏈接,,獲取該超鏈接的網(wǎng)頁內(nèi)容特征,,將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進行匹配,如果匹配得上,,則將該超鏈接發(fā)送給所述黑鏈確定模塊,。百度黑鏈檢測算法的測試案例中所述惡意特征數(shù)據(jù)庫中存儲有被識別為黑鏈的網(wǎng)頁的關鍵詞;所述惡意特征匹配模塊在將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進行匹配時,具體將獲取的該超鏈接的網(wǎng)頁標題title或網(wǎng)頁元信息Meta與所述惡意特征數(shù)據(jù)庫中存儲的關鍵詞進行匹配,。
百度黑鏈檢測算法的測試案例中該裝置還包括:惡意特征庫維護模塊,,用于在所述黑鏈確定模塊將該超鏈接確定黑鏈后,從該黑鏈的網(wǎng)頁中進一步提取關鍵詞,,將該關鍵詞存儲于惡意特征數(shù)據(jù)庫,。百度黑鏈檢測算法的測試案例中在所述檢測模塊中,,當所述視覺特征參數(shù)為顏色設置參數(shù)時,,采用的不可見特征要求為該超鏈接的顏色設置參數(shù)與所述待檢測網(wǎng)頁背景顏色一致;或者當所述視覺特征參數(shù)為字體參數(shù)時,采用的不可見特征要求為該超鏈接的字體參數(shù)的值小于或等于預設的字體參數(shù)I-7值;或者當所述視覺特征參數(shù)為關鍵字位置參數(shù)時,,采用的不可見特征要求為該超鏈接的關鍵字位置在所述待檢測網(wǎng)頁的可見范圍之外;或者當所述視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時,,采用的不可見特征要求為該超鏈接以跑馬燈形式閃現(xiàn)或者不顯示。百度黑鏈檢測算法的測試案例中所述惡意特征數(shù)據(jù)庫存儲有被確定為黑鏈的鏈接;該裝置還包括:惡意特征庫挖掘模塊,,用于從網(wǎng)頁庫中獲取超鏈接中包含了所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁,,將該網(wǎng)頁中的其他超鏈接逐一提供給所述檢測模塊,,并將所述黑鏈確定模塊確定的黑鏈加入所述惡意特征數(shù)據(jù)庫;或者,,從網(wǎng)頁庫中找出與所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁相似度滿足預設相似度要求的網(wǎng)頁,,將找出的網(wǎng)頁作為待檢測網(wǎng)頁提供給所述鏈接提取模塊,,然后將所述黑鏈確定模塊確定的黑鏈加入所述惡意特征數(shù)據(jù)庫。
由以上技術方案可以看出,,百度黑鏈檢測算法提供了一種自動實現(xiàn)黑鏈檢測的方式,,無需手工操作,不再受限于網(wǎng)站管理員對黑鏈知識的掌握,,由于百度黑鏈檢測算法基于黑鏈的基本行為特性,即不可見的視覺特征,,因此即便是新出現(xiàn)的黑鏈,,只要滿足該基本行為特性均能夠及時有效地發(fā)現(xiàn)。
【附圖說明】
圖1為百度黑鏈檢測算法實施例一提供的檢測黑鏈的方法流程圖;圖2為百度黑鏈檢測算法實施例二提供的對超鏈接的視覺特征參數(shù)進行檢測的流程圖;圖3為百度黑鏈檢測算法實施例四提供的檢測黑鏈的裝置結構圖。
【具體實施方式】為了使百度黑鏈檢測算法的目的,、技術方案和優(yōu)點更加清楚,,下面結合附圖和具體實施例對百度黑鏈檢測算法進行詳細描述,。
實施例一,、圖1為百度黑鏈檢測算法實施例一提供的檢測黑鏈的方法流程圖,如圖1所示,,該方法可以包括以下步驟:步驟101:將待檢測網(wǎng)頁的網(wǎng)址與已有的白名單數(shù)據(jù)庫進行匹配,,如果待檢測網(wǎng)頁存在于白名單數(shù)據(jù)庫中,,則確定該待檢測網(wǎng)頁不存在黑鏈,,結束流程;否則執(zhí)行步驟102,。進行黑鏈檢測時,可以首先調(diào)用白名單數(shù)據(jù)庫進行檢測,。在百度黑鏈檢測算法實施例中可以預先將已經(jīng)確認的沒有被掛黑鏈的網(wǎng)頁的url存儲在白名單數(shù)據(jù)庫中,,該白名單數(shù)據(jù)庫可以是一個動態(tài)更新的數(shù)據(jù)庫,,可以采用手工方式進行添加,也可以在本實施例步驟104中確定某超鏈接安全時,,將該超鏈接加入白名單數(shù)據(jù)庫,。本步驟用于提高黑鏈的檢測效率,,并不是百度黑鏈檢測算法的必要步驟,。步驟102:提取該待檢測網(wǎng)頁的超鏈接,逐一對獲取的超鏈接執(zhí)行步驟103至步驟106,。針對待檢測網(wǎng)頁進行黑鏈檢測時,目的是為了檢測該待檢測網(wǎng)頁中是否被掛上了黑鏈,,因此提取其中所有的超鏈接,,逐一進行檢測,。步驟103:判斷超鏈接的視覺特征參數(shù)是否滿足預設的不可見特征要求,如果是,,則確定該超鏈接為可疑鏈接,,執(zhí)行步驟105;否則,執(zhí)行步驟1040經(jīng)觀察被掛的黑鏈通常都具有一些不可見特征,,目的是為了不易被察覺,這些特征通過鏈接的視覺特征參數(shù)體現(xiàn),,這些視覺特征參數(shù)包括但不限于:顏色設置參數(shù)、字體參數(shù),、關鍵字位置參數(shù)、鏈接展現(xiàn)參數(shù)等中的一種或任意組合,。當視覺特征參數(shù)為顏色設置參數(shù)時,,對應的不可見特征要求可以為該超鏈接的顏色設置參數(shù)與待檢測網(wǎng)頁背景顏色一致。當視覺特征參數(shù)為字體參數(shù)時,,其中字體參數(shù)可以為:字體大小和/或字體高度,對應的不可見特征要求可以為該超鏈接的字體參數(shù)的值小于或等于預設字體參數(shù)閥值,。例如,,字體大小小于1像素,,或者,,字體高度小于1像素等,。當視覺特征參數(shù)為關鍵字位置參數(shù)時,關鍵字位置參數(shù)可以通過div標簽中的left和top參數(shù)體現(xiàn),對應的不可見特征要求可以為該超鏈接的關鍵字位置在待檢測網(wǎng)頁的可見范圍之外。當視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時,,鏈接展現(xiàn)參數(shù)可以為滾動文字(marquee)標簽中的,此時對應的不可見特征要求可以為該超鏈接以跑馬燈形式閃現(xiàn);鏈接展現(xiàn)參數(shù)還可以為顯示屬性(display)參數(shù),,該參數(shù)可以是div標簽中的、document.write中的或者java中的,,此時對應的不可見特征要求為該超鏈接不顯示,。具體檢測將以實施例二為例進行描述,。
步驟104:判斷該超鏈接的外鏈引用次數(shù)是否超過預設的次數(shù)閥值,,如果是,則確定該超鏈接為可疑鏈接,,執(zhí)行步驟105;否則將該超鏈接加入白名單數(shù)據(jù)庫,,結束對該超鏈接的判斷流程,。在通過步驟103所述的檢測方式?jīng)]有確定出可疑鏈接時,,還可以通過本步驟進行進一步的判斷,,如果一個超鏈接被掛在其他網(wǎng)頁上的次數(shù),,即外鏈引用次數(shù),超過預設的次數(shù)閡值,,說明該超鏈接多次被掛在其他網(wǎng)頁上,,這通常是不正常的現(xiàn)象,例如多個視頻或音頻等網(wǎng)頁上均掛了一個相同的賣藥的超鏈接,,則該賣藥的超鏈接很有可能就是黑鏈,。其中預設的次數(shù)閥值通常采用經(jīng)驗值。優(yōu)選地,,在判斷出該超鏈接的外鏈引用次數(shù)沒有超過預設的次數(shù)閥值時,,可以進一步存在一個審核的步驟,待審核確認后可以將該超鏈接加入白名單,,從而避免誤報,。步驟105:獲取該超鏈接的網(wǎng)頁內(nèi)容特征。在確定出可疑鏈接時,,為了提高檢測準確性,,可以進一步對該超鏈接進行基于內(nèi)容特征的檢測。本步驟中獲取的網(wǎng)頁內(nèi)容特征可以包括但不限于:網(wǎng)頁標題(title),、網(wǎng)頁元信息((Metes)等,。步驟106:將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進行匹配,如果匹配得上,,則確定該超鏈接為黑鏈,。
百度黑鏈檢測算法實施例中惡意特征數(shù)據(jù)庫的形成可以通過手工的方式預先設置,也可以通過自動挖掘的方式形成,。惡意特征數(shù)據(jù)庫中至少存儲有被識別為黑鏈的網(wǎng)頁的關鍵詞,該關鍵詞可以從網(wǎng)頁title和/或Metes中提取,,關鍵詞用于在黑鏈檢測過程中將超鏈接的內(nèi)容特征與惡意特征數(shù)據(jù)庫進行匹配時使用,,即將從超鏈接的網(wǎng)頁中提取的title或Metes與惡意特征數(shù)據(jù)庫中的關鍵詞進行匹配,如果匹配得上,,則可以確認該超鏈接為黑鏈,,也就是說被檢測網(wǎng)頁存在黑鏈,,如果沒有匹配上,則可以確認該超鏈接為安全的鏈接,。除此之外,,惡意特征數(shù)據(jù)庫還可以存儲有被識別為黑鏈的網(wǎng)頁url,用于進行惡意特征數(shù)據(jù)庫的進一步挖掘,,該過程將在實施例三中詳細描述,。
在此從確定出的黑鏈的網(wǎng)頁中進一步提取關鍵詞,將該關鍵詞存入惡意特征數(shù)據(jù)庫,,并將該黑鏈存入惡意特征數(shù)據(jù)庫,。在確定出黑鏈之后,可以將黑鏈和掛黑鏈的網(wǎng)頁(即待檢測網(wǎng)頁)進行上報,。需要說明的是,,上述步驟105和步驟106可以是進一步的過程,如果不需要足夠高的準確度,,也可以直接將可疑鏈接確定為黑鏈,。
實施例二、圖2為百度黑鏈檢測算法實施例二提供的對超鏈接的視覺特征參數(shù)進行檢測的流程圖,,如圖2所示,,該流程可以具體包括以下步驟:步驟201:獲取超鏈接的顏色設置參數(shù)。步驟202:判斷該顏色設置參數(shù)是否與被檢測網(wǎng)頁的網(wǎng)頁背景顏色設置一致,,如果是,,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2030如果超鏈接的顏色設置與其被掛在的網(wǎng)頁背景顏色設置一致,這種情況該超鏈接不易被察覺,,很有可能是黑鏈,。這種黑鏈實現(xiàn)代碼為:步驟203:獲取該超鏈接的字體大小(font-size)參數(shù)和字體高度(line-size)參數(shù)。本步驟是獲取超鏈接的字體參數(shù),。步驟204:判斷font-size或line-size是否小于或等于1像素,,如果是,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2050此處1像素是采用的一個經(jīng)驗值,,如果超鏈接的鏈接文字大小小于或等于1像素,,則不易被察覺,很有可能為黑鏈,。這種黑鏈實現(xiàn)代碼為:步驟203:獲取該超鏈接的字體大小(font-size)參數(shù)和字體高度(line-size)參數(shù),。本步驟是獲取超鏈接的字體參數(shù)。步驟204:判斷font-size或line-size是否小于或等于1像素,,如果是,,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2050此處1像素是采用的一個經(jīng)驗值,如果超鏈接的鏈接文字大小小于或等于1像素,,則不易被察覺,,很有可能為黑鏈,。
本文由:登封招聘網(wǎng)轉(zhuǎn)載發(fā)布!
|
|