- 積分
- 2305
- 經(jīng)驗(yàn)
- 點(diǎn)
- 威望
- 點(diǎn)
- 金錢
- 兩
- 魅力
- 點(diǎn)
- 金幣
- 元
- 性別
- 保密
- 在線時(shí)間
- 小時(shí)
- 注冊(cè)時(shí)間
- 2014-4-29
- 最后登錄
- 1970-1-1
|
馬上注冊(cè),,結(jié)交更多好友,,享用更多功能,,讓你輕松玩轉(zhuǎn)社區(qū),。
您需要 登錄 才可以下載或查看,,沒有帳號(hào),?點(diǎn)這里注冊(cè)
x
黑鏈又稱暗鏈,、隱藏鏈接,,是黑帽手法中相當(dāng)普遍的一種手段,,是指用非正常手段獲取的其他網(wǎng)頁的反向鏈接,最常見的黑鏈就是通過各種網(wǎng)頁程序漏洞獲取搜索引擎權(quán)重或網(wǎng)頁級(jí)別(PR)較高的網(wǎng)頁的管理權(quán)限代碼(Webshell),,進(jìn)而在被黑網(wǎng)頁上鏈接自己的網(wǎng)頁,。該手段是搜索引擎中進(jìn)行作弊最有效最迅速的方法之一,在暴利行業(yè)使用尤多,,例如游戲,、外掛、彩鈴等業(yè)務(wù)的行業(yè)�,,F(xiàn)有的黑鏈檢測(cè)方法主要包括以下幾種:
其一,、網(wǎng)站管理人員通過經(jīng)常查看網(wǎng)頁源代碼的方式,檢查網(wǎng)頁是否被掛上黑鏈,。其二,、查看網(wǎng)頁中的鏈接是否可訪問,如果存在未知鏈接,,則懷疑被掛上黑鏈,,刪除該未知鏈接。其三,、通過FTP工具查看網(wǎng)頁文件的修改時(shí)間,,如果存在修改時(shí)間異于大多數(shù)文件修改時(shí)間的文件,則該文件就可能被修改了文件源代碼,,掛了黑鏈,。上述幾種黑鏈檢測(cè)方法都需要大量的人工操作,一方面浪費(fèi)人力資源,對(duì)網(wǎng)站管理人員的黑鏈知識(shí)提出較高要求,,無法實(shí)現(xiàn)黑鏈的自動(dòng)檢測(cè);另一方面,,對(duì)于新出現(xiàn)的黑鏈作弊方式,很難及時(shí)有效地發(fā)現(xiàn),。擴(kuò)展閱讀:算命最準(zhǔn)的免費(fèi)網(wǎng)站hsm
百度搜素引擎提供了一種檢測(cè)黑鏈的算法處理裝置,,以便于實(shí)現(xiàn)黑鏈的自動(dòng)檢測(cè)。具體技術(shù)方案如下:
S1,、提取待檢測(cè)網(wǎng)頁的超鏈接,,逐一對(duì)獲取的超鏈接執(zhí)行黑鏈檢測(cè)流程.黑鏈檢測(cè)流程包括:Al、判斷超鏈接的視覺特征參數(shù)是否滿足預(yù)設(shè)的不可見特征要求,,如果是,則確定該超鏈接為黑鏈,。百度黑鏈檢測(cè)算法的測(cè)試案例中在黑鏈檢測(cè)流程的步驟Al中,如果判斷結(jié)果為否,,則進(jìn)一步執(zhí)行步驟A2;A2,、判斷該超鏈接的外鏈引用次數(shù)是否超過預(yù)設(shè)的次數(shù)閥值,如果是,,則確定該超鏈接為黑鏈,。
百度黑鏈檢測(cè)算法的測(cè)試案例中如果所述A2的判斷結(jié)果為否,則將該超鏈接加入白名單數(shù)據(jù)庫,,結(jié)束對(duì)該超鏈接的黑鏈檢測(cè)流程,。百度黑鏈檢測(cè)算法的測(cè)試案例中在所述步驟Sl之前還包括:SO、將所述待檢測(cè)網(wǎng)頁的網(wǎng)址與已有的白名單數(shù)據(jù)庫進(jìn)行匹配,,如果匹配得上,,則確定所述待檢測(cè)網(wǎng)頁不存在黑鏈,結(jié)束流程;否則繼續(xù)執(zhí)行所述步驟Slo百度黑鏈檢測(cè)算法的測(cè)試案例中所述確定該超鏈接為黑鏈進(jìn)一步包括:獲取該超鏈接的網(wǎng)頁內(nèi)容特征;將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配,,如果匹配得上,,則確定該超鏈接為黑鏈。
百度黑鏈檢測(cè)算法的測(cè)試案例中所述惡意特征數(shù)據(jù)庫中存儲(chǔ)有被識(shí)別為黑鏈的網(wǎng)頁的關(guān)鍵詞;所述將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配具體包括:將獲取的該超鏈接的網(wǎng)頁標(biāo)題title或網(wǎng)頁元信息l}Zeta與所述惡意特征數(shù)據(jù)庫中存儲(chǔ)的關(guān)鍵詞進(jìn)行匹配,。
百度黑鏈檢測(cè)算法的測(cè)試案例中在確定出該超鏈接為黑鏈后,,進(jìn)一步包括:從該黑鏈的網(wǎng)頁中進(jìn)一步提取關(guān)鍵詞,,將該關(guān)鍵詞存儲(chǔ)于惡意特征數(shù)據(jù)庫,。百度黑鏈檢測(cè)算法的測(cè)試案例中在所述步驟Al中,當(dāng)所述視覺特征參數(shù)為顏色設(shè)置參數(shù)時(shí),,對(duì)應(yīng)的不可見特征要求為該超鏈接的顏色設(shè)置參數(shù)與所述待檢測(cè)網(wǎng)頁背景顏色一致;或者當(dāng)所述視覺特征參數(shù)為字體參數(shù)時(shí),,對(duì)應(yīng)的不可見特征要求為該超鏈接的字體參數(shù)的值小于或等于預(yù)設(shè)的字體參數(shù)閥值;或者當(dāng)所述視覺特征參數(shù)為關(guān)鍵字位置參數(shù)時(shí),對(duì)應(yīng)的不可見特征要求為該超鏈接的關(guān)鍵字位置在所述待檢測(cè)網(wǎng)頁的可見范圍之外;或者當(dāng)所述視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時(shí),,對(duì)應(yīng)的不可見特征要求為該超鏈接以跑馬燈形式閃現(xiàn)或者不顯示,。
百度黑鏈檢測(cè)算法的測(cè)試案例中所述惡意特征數(shù)據(jù)庫存儲(chǔ)有被確定為黑鏈的鏈接;該方法還包括:從網(wǎng)頁庫中獲取超鏈接中包含了所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁,對(duì)該網(wǎng)頁中的其他超鏈接逐一執(zhí)行所述黑鏈檢測(cè)流程,并將檢測(cè)出的黑鏈加入所述惡意特征數(shù)據(jù)庫;或者,,從網(wǎng)頁庫中找出與所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁相似度滿足預(yù)設(shè)相似度要求的網(wǎng)頁,,將找出的網(wǎng)頁作為待檢測(cè)網(wǎng)頁轉(zhuǎn)至步驟Sl處開始執(zhí)行,然后將檢測(cè)出的黑鏈加入所述惡意特征數(shù)據(jù)庫,。一種檢測(cè)黑鏈的裝置,,該裝置包括:鏈接提取模塊,用于提取待檢測(cè)網(wǎng)頁的超鏈接,,并將提取的超鏈接逐一提供給檢測(cè)模塊;檢測(cè)模塊,,用于判斷超鏈接的視覺特征參數(shù)是否滿足預(yù)設(shè)的不可見特征要求,如果是,,則將該超鏈接發(fā)送給黑鏈確定模塊;黑鏈確定模塊,,用于將接收到的超鏈接確定為黑鏈。
百度黑鏈檢測(cè)算法的測(cè)試案例中該裝置還包括:引用次數(shù)判斷模塊,,用于在所述檢測(cè)模塊的判斷結(jié)果為否時(shí),,判斷該超鏈接的外鏈引用次數(shù)是否超過預(yù)設(shè)的次數(shù)閡值,如果是,,則將該超鏈接發(fā)送給所述黑鏈確定模塊,。百度黑鏈檢測(cè)算法的測(cè)試案例中該裝置還包括:白名單維護(hù)模塊,用于在所述引用次數(shù)判斷模塊的判斷結(jié)果為否時(shí),,將該超鏈接加入白名單數(shù)據(jù)庫,。百度黑鏈檢測(cè)算法的測(cè)試案例中該裝置還包括:白名單判斷模塊,用于將所述待檢測(cè)網(wǎng)頁的網(wǎng)址與已有白名單數(shù)據(jù)庫進(jìn)行匹配,,如果匹配得上,,則確定所述待檢測(cè)網(wǎng)頁不存在黑鏈;否則,觸發(fā)所述鏈接提取模塊,。百度黑鏈檢測(cè)算法的測(cè)試案例中該裝置還包括:惡意特征匹配模塊,,用于獲取發(fā)送給所述黑鏈確定模塊的超鏈接,獲取該超鏈接的網(wǎng)頁內(nèi)容特征,,將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配,,如果匹配得上,則將該超鏈接發(fā)送給所述黑鏈確定模塊,。百度黑鏈檢測(cè)算法的測(cè)試案例中所述惡意特征數(shù)據(jù)庫中存儲(chǔ)有被識(shí)別為黑鏈的網(wǎng)頁的關(guān)鍵詞;所述惡意特征匹配模塊在將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配時(shí),,具體將獲取的該超鏈接的網(wǎng)頁標(biāo)題title或網(wǎng)頁元信息Meta與所述惡意特征數(shù)據(jù)庫中存儲(chǔ)的關(guān)鍵詞進(jìn)行匹配。
百度黑鏈檢測(cè)算法的測(cè)試案例中該裝置還包括:惡意特征庫維護(hù)模塊,,用于在所述黑鏈確定模塊將該超鏈接確定黑鏈后,,從該黑鏈的網(wǎng)頁中進(jìn)一步提取關(guān)鍵詞,將該關(guān)鍵詞存儲(chǔ)于惡意特征數(shù)據(jù)庫,。百度黑鏈檢測(cè)算法的測(cè)試案例中在所述檢測(cè)模塊中,,當(dāng)所述視覺特征參數(shù)為顏色設(shè)置參數(shù)時(shí),,采用的不可見特征要求為該超鏈接的顏色設(shè)置參數(shù)與所述待檢測(cè)網(wǎng)頁背景顏色一致;或者當(dāng)所述視覺特征參數(shù)為字體參數(shù)時(shí),采用的不可見特征要求為該超鏈接的字體參數(shù)的值小于或等于預(yù)設(shè)的字體參數(shù)I-7值;或者當(dāng)所述視覺特征參數(shù)為關(guān)鍵字位置參數(shù)時(shí),,采用的不可見特征要求為該超鏈接的關(guān)鍵字位置在所述待檢測(cè)網(wǎng)頁的可見范圍之外;或者當(dāng)所述視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時(shí),,采用的不可見特征要求為該超鏈接以跑馬燈形式閃現(xiàn)或者不顯示。百度黑鏈檢測(cè)算法的測(cè)試案例中所述惡意特征數(shù)據(jù)庫存儲(chǔ)有被確定為黑鏈的鏈接;該裝置還包括:惡意特征庫挖掘模塊,,用于從網(wǎng)頁庫中獲取超鏈接中包含了所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁,,將該網(wǎng)頁中的其他超鏈接逐一提供給所述檢測(cè)模塊,并將所述黑鏈確定模塊確定的黑鏈加入所述惡意特征數(shù)據(jù)庫;或者,,從網(wǎng)頁庫中找出與所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁相似度滿足預(yù)設(shè)相似度要求的網(wǎng)頁,,將找出的網(wǎng)頁作為待檢測(cè)網(wǎng)頁提供給所述鏈接提取模塊,然后將所述黑鏈確定模塊確定的黑鏈加入所述惡意特征數(shù)據(jù)庫,。
由以上技術(shù)方案可以看出,,百度黑鏈檢測(cè)算法提供了一種自動(dòng)實(shí)現(xiàn)黑鏈檢測(cè)的方式,無需手工操作,,不再受限于網(wǎng)站管理員對(duì)黑鏈知識(shí)的掌握,,由于百度黑鏈檢測(cè)算法基于黑鏈的基本行為特性,即不可見的視覺特征,,因此即便是新出現(xiàn)的黑鏈,,只要滿足該基本行為特性均能夠及時(shí)有效地發(fā)現(xiàn)。
【附圖說明】
圖1為百度黑鏈檢測(cè)算法實(shí)施例一提供的檢測(cè)黑鏈的方法流程圖;圖2為百度黑鏈檢測(cè)算法實(shí)施例二提供的對(duì)超鏈接的視覺特征參數(shù)進(jìn)行檢測(cè)的流程圖;圖3為百度黑鏈檢測(cè)算法實(shí)施例四提供的檢測(cè)黑鏈的裝置結(jié)構(gòu)圖,。
【具體實(shí)施方式】為了使百度黑鏈檢測(cè)算法的目的,、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)百度黑鏈檢測(cè)算法進(jìn)行詳細(xì)描述,。
實(shí)施例一,、圖1為百度黑鏈檢測(cè)算法實(shí)施例一提供的檢測(cè)黑鏈的方法流程圖,如圖1所示,,該方法可以包括以下步驟:步驟101:將待檢測(cè)網(wǎng)頁的網(wǎng)址與已有的白名單數(shù)據(jù)庫進(jìn)行匹配,,如果待檢測(cè)網(wǎng)頁存在于白名單數(shù)據(jù)庫中,則確定該待檢測(cè)網(wǎng)頁不存在黑鏈,,結(jié)束流程;否則執(zhí)行步驟102,。進(jìn)行黑鏈檢測(cè)時(shí),可以首先調(diào)用白名單數(shù)據(jù)庫進(jìn)行檢測(cè),。在百度黑鏈檢測(cè)算法實(shí)施例中可以預(yù)先將已經(jīng)確認(rèn)的沒有被掛黑鏈的網(wǎng)頁的url存儲(chǔ)在白名單數(shù)據(jù)庫中,,該白名單數(shù)據(jù)庫可以是一個(gè)動(dòng)態(tài)更新的數(shù)據(jù)庫,可以采用手工方式進(jìn)行添加,,也可以在本實(shí)施例步驟104中確定某超鏈接安全時(shí),,將該超鏈接加入白名單數(shù)據(jù)庫,。本步驟用于提高黑鏈的檢測(cè)效率,,并不是百度黑鏈檢測(cè)算法的必要步驟。步驟102:提取該待檢測(cè)網(wǎng)頁的超鏈接,逐一對(duì)獲取的超鏈接執(zhí)行步驟103至步驟106,。針對(duì)待檢測(cè)網(wǎng)頁進(jìn)行黑鏈檢測(cè)時(shí),,目的是為了檢測(cè)該待檢測(cè)網(wǎng)頁中是否被掛上了黑鏈,因此提取其中所有的超鏈接,,逐一進(jìn)行檢測(cè),。步驟103:判斷超鏈接的視覺特征參數(shù)是否滿足預(yù)設(shè)的不可見特征要求,如果是,,則確定該超鏈接為可疑鏈接,,執(zhí)行步驟105;否則,執(zhí)行步驟1040經(jīng)觀察被掛的黑鏈通常都具有一些不可見特征,,目的是為了不易被察覺,,這些特征通過鏈接的視覺特征參數(shù)體現(xiàn),這些視覺特征參數(shù)包括但不限于:顏色設(shè)置參數(shù),、字體參數(shù),、關(guān)鍵字位置參數(shù)、鏈接展現(xiàn)參數(shù)等中的一種或任意組合,。當(dāng)視覺特征參數(shù)為顏色設(shè)置參數(shù)時(shí),,對(duì)應(yīng)的不可見特征要求可以為該超鏈接的顏色設(shè)置參數(shù)與待檢測(cè)網(wǎng)頁背景顏色一致。當(dāng)視覺特征參數(shù)為字體參數(shù)時(shí),,其中字體參數(shù)可以為:字體大小和/或字體高度,,對(duì)應(yīng)的不可見特征要求可以為該超鏈接的字體參數(shù)的值小于或等于預(yù)設(shè)字體參數(shù)閥值。例如,,字體大小小于1像素,,或者,字體高度小于1像素等,。當(dāng)視覺特征參數(shù)為關(guān)鍵字位置參數(shù)時(shí),,關(guān)鍵字位置參數(shù)可以通過div標(biāo)簽中的left和top參數(shù)體現(xiàn),對(duì)應(yīng)的不可見特征要求可以為該超鏈接的關(guān)鍵字位置在待檢測(cè)網(wǎng)頁的可見范圍之外,。當(dāng)視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時(shí),,鏈接展現(xiàn)參數(shù)可以為滾動(dòng)文字(marquee)標(biāo)簽中的,此時(shí)對(duì)應(yīng)的不可見特征要求可以為該超鏈接以跑馬燈形式閃現(xiàn);鏈接展現(xiàn)參數(shù)還可以為顯示屬性(display)參數(shù),,該參數(shù)可以是div標(biāo)簽中的,、document.write中的或者java中的,此時(shí)對(duì)應(yīng)的不可見特征要求為該超鏈接不顯示,。具體檢測(cè)將以實(shí)施例二為例進(jìn)行描述,。
步驟104:判斷該超鏈接的外鏈引用次數(shù)是否超過預(yù)設(shè)的次數(shù)閥值,如果是,,則確定該超鏈接為可疑鏈接,,執(zhí)行步驟105;否則將該超鏈接加入白名單數(shù)據(jù)庫,,結(jié)束對(duì)該超鏈接的判斷流程。在通過步驟103所述的檢測(cè)方式?jīng)]有確定出可疑鏈接時(shí),,還可以通過本步驟進(jìn)行進(jìn)一步的判斷,,如果一個(gè)超鏈接被掛在其他網(wǎng)頁上的次數(shù),即外鏈引用次數(shù),,超過預(yù)設(shè)的次數(shù)閡值,,說明該超鏈接多次被掛在其他網(wǎng)頁上,這通常是不正常的現(xiàn)象,,例如多個(gè)視頻或音頻等網(wǎng)頁上均掛了一個(gè)相同的賣藥的超鏈接,,則該賣藥的超鏈接很有可能就是黑鏈。其中預(yù)設(shè)的次數(shù)閥值通常采用經(jīng)驗(yàn)值,。優(yōu)選地,,在判斷出該超鏈接的外鏈引用次數(shù)沒有超過預(yù)設(shè)的次數(shù)閥值時(shí),可以進(jìn)一步存在一個(gè)審核的步驟,,待審核確認(rèn)后可以將該超鏈接加入白名單,,從而避免誤報(bào)。步驟105:獲取該超鏈接的網(wǎng)頁內(nèi)容特征,。在確定出可疑鏈接時(shí),,為了提高檢測(cè)準(zhǔn)確性,可以進(jìn)一步對(duì)該超鏈接進(jìn)行基于內(nèi)容特征的檢測(cè),。本步驟中獲取的網(wǎng)頁內(nèi)容特征可以包括但不限于:網(wǎng)頁標(biāo)題(title),、網(wǎng)頁元信息((Metes)等。步驟106:將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配,,如果匹配得上,,則確定該超鏈接為黑鏈。
百度黑鏈檢測(cè)算法實(shí)施例中惡意特征數(shù)據(jù)庫的形成可以通過手工的方式預(yù)先設(shè)置,,也可以通過自動(dòng)挖掘的方式形成,。惡意特征數(shù)據(jù)庫中至少存儲(chǔ)有被識(shí)別為黑鏈的網(wǎng)頁的關(guān)鍵詞,該關(guān)鍵詞可以從網(wǎng)頁title和/或Metes中提取,,關(guān)鍵詞用于在黑鏈檢測(cè)過程中將超鏈接的內(nèi)容特征與惡意特征數(shù)據(jù)庫進(jìn)行匹配時(shí)使用,,即將從超鏈接的網(wǎng)頁中提取的title或Metes與惡意特征數(shù)據(jù)庫中的關(guān)鍵詞進(jìn)行匹配,如果匹配得上,,則可以確認(rèn)該超鏈接為黑鏈,,也就是說被檢測(cè)網(wǎng)頁存在黑鏈,如果沒有匹配上,,則可以確認(rèn)該超鏈接為安全的鏈接,。除此之外,惡意特征數(shù)據(jù)庫還可以存儲(chǔ)有被識(shí)別為黑鏈的網(wǎng)頁url,,用于進(jìn)行惡意特征數(shù)據(jù)庫的進(jìn)一步挖掘,,該過程將在實(shí)施例三中詳細(xì)描述,。
在此從確定出的黑鏈的網(wǎng)頁中進(jìn)一步提取關(guān)鍵詞,將該關(guān)鍵詞存入惡意特征數(shù)據(jù)庫,,并將該黑鏈存入惡意特征數(shù)據(jù)庫。在確定出黑鏈之后,,可以將黑鏈和掛黑鏈的網(wǎng)頁(即待檢測(cè)網(wǎng)頁)進(jìn)行上報(bào),。需要說明的是,上述步驟105和步驟106可以是進(jìn)一步的過程,,如果不需要足夠高的準(zhǔn)確度,,也可以直接將可疑鏈接確定為黑鏈。
實(shí)施例二,、圖2為百度黑鏈檢測(cè)算法實(shí)施例二提供的對(duì)超鏈接的視覺特征參數(shù)進(jìn)行檢測(cè)的流程圖,,如圖2所示,該流程可以具體包括以下步驟:步驟201:獲取超鏈接的顏色設(shè)置參數(shù),。步驟202:判斷該顏色設(shè)置參數(shù)是否與被檢測(cè)網(wǎng)頁的網(wǎng)頁背景顏色設(shè)置一致,,如果是,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2030如果超鏈接的顏色設(shè)置與其被掛在的網(wǎng)頁背景顏色設(shè)置一致,,這種情況該超鏈接不易被察覺,,很有可能是黑鏈。這種黑鏈實(shí)現(xiàn)代碼為:步驟203:獲取該超鏈接的字體大小(font-size)參數(shù)和字體高度(line-size)參數(shù),。本步驟是獲取超鏈接的字體參數(shù),。步驟204:判斷font-size或line-size是否小于或等于1像素,如果是,,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2050此處1像素是采用的一個(gè)經(jīng)驗(yàn)值,,如果超鏈接的鏈接文字大小小于或等于1像素,則不易被察覺,,很有可能為黑鏈,。這種黑鏈實(shí)現(xiàn)代碼為:步驟203:獲取該超鏈接的字體大小(font-size)參數(shù)和字體高度(line-size)參數(shù)。本步驟是獲取超鏈接的字體參數(shù),。步驟204:判斷font-size或line-size是否小于或等于1像素,,如果是,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2050此處1像素是采用的一個(gè)經(jīng)驗(yàn)值,,如果超鏈接的鏈接文字大小小于或等于1像素,,則不易被察覺,很有可能為黑鏈,。
本文由:登封招聘網(wǎng)轉(zhuǎn)載發(fā)布,!
|
|