- 積分
- 2305
- 經(jīng)驗
- 點(diǎn)
- 威望
- 點(diǎn)
- 金錢
- 兩
- 魅力
- 點(diǎn)
- 金幣
- 元
- 性別
- 保密
- 在線時間
- 小時
- 注冊時間
- 2014-4-29
- 最后登錄
- 1970-1-1
|
馬上注冊,結(jié)交更多好友,,享用更多功能,,讓你輕松玩轉(zhuǎn)社區(qū),。
您需要 登錄 才可以下載或查看,,沒有帳號,?點(diǎn)這里注冊
x
黑鏈又稱暗鏈、隱藏鏈接,,是黑帽手法中相當(dāng)普遍的一種手段,,是指用非正常手段獲取的其他網(wǎng)頁的反向鏈接,最常見的黑鏈就是通過各種網(wǎng)頁程序漏洞獲取搜索引擎權(quán)重或網(wǎng)頁級別(PR)較高的網(wǎng)頁的管理權(quán)限代碼(Webshell),,進(jìn)而在被黑網(wǎng)頁上鏈接自己的網(wǎng)頁,。該手段是搜索引擎中進(jìn)行作弊最有效最迅速的方法之一,,在暴利行業(yè)使用尤多,例如游戲,、外掛,、彩鈴等業(yè)務(wù)的行業(yè)。現(xiàn)有的黑鏈檢測方法主要包括以下幾種:
其一,、網(wǎng)站管理人員通過經(jīng)常查看網(wǎng)頁源代碼的方式,,檢查網(wǎng)頁是否被掛上黑鏈。其二,、查看網(wǎng)頁中的鏈接是否可訪問,如果存在未知鏈接,,則懷疑被掛上黑鏈,,刪除該未知鏈接。其三,、通過FTP工具查看網(wǎng)頁文件的修改時間,,如果存在修改時間異于大多數(shù)文件修改時間的文件,則該文件就可能被修改了文件源代碼,,掛了黑鏈,。上述幾種黑鏈檢測方法都需要大量的人工操作,一方面浪費(fèi)人力資源,,對網(wǎng)站管理人員的黑鏈知識提出較高要求,,無法實(shí)現(xiàn)黑鏈的自動檢測;另一方面,對于新出現(xiàn)的黑鏈作弊方式,,很難及時有效地發(fā)現(xiàn),。擴(kuò)展閱讀:算命最準(zhǔn)的免費(fèi)網(wǎng)站hsm
百度搜素引擎提供了一種檢測黑鏈的算法處理裝置,以便于實(shí)現(xiàn)黑鏈的自動檢測,。具體技術(shù)方案如下:
S1,、提取待檢測網(wǎng)頁的超鏈接,逐一對獲取的超鏈接執(zhí)行黑鏈檢測流程.黑鏈檢測流程包括:Al,、判斷超鏈接的視覺特征參數(shù)是否滿足預(yù)設(shè)的不可見特征要求,,如果是,則確定該超鏈接為黑鏈。百度黑鏈檢測算法的測試案例中在黑鏈檢測流程的步驟Al中,,如果判斷結(jié)果為否,,則進(jìn)一步執(zhí)行步驟A2;A2、判斷該超鏈接的外鏈引用次數(shù)是否超過預(yù)設(shè)的次數(shù)閥值,,如果是,,則確定該超鏈接為黑鏈。
百度黑鏈檢測算法的測試案例中如果所述A2的判斷結(jié)果為否,,則將該超鏈接加入白名單數(shù)據(jù)庫,,結(jié)束對該超鏈接的黑鏈檢測流程,。百度黑鏈檢測算法的測試案例中在所述步驟Sl之前還包括:SO、將所述待檢測網(wǎng)頁的網(wǎng)址與已有的白名單數(shù)據(jù)庫進(jìn)行匹配,,如果匹配得上,,則確定所述待檢測網(wǎng)頁不存在黑鏈,結(jié)束流程;否則繼續(xù)執(zhí)行所述步驟Slo百度黑鏈檢測算法的測試案例中所述確定該超鏈接為黑鏈進(jìn)一步包括:獲取該超鏈接的網(wǎng)頁內(nèi)容特征;將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配,,如果匹配得上,,則確定該超鏈接為黑鏈。
百度黑鏈檢測算法的測試案例中所述惡意特征數(shù)據(jù)庫中存儲有被識別為黑鏈的網(wǎng)頁的關(guān)鍵詞;所述將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配具體包括:將獲取的該超鏈接的網(wǎng)頁標(biāo)題title或網(wǎng)頁元信息l}Zeta與所述惡意特征數(shù)據(jù)庫中存儲的關(guān)鍵詞進(jìn)行匹配,。
百度黑鏈檢測算法的測試案例中在確定出該超鏈接為黑鏈后,,進(jìn)一步包括:從該黑鏈的網(wǎng)頁中進(jìn)一步提取關(guān)鍵詞,將該關(guān)鍵詞存儲于惡意特征數(shù)據(jù)庫,。百度黑鏈檢測算法的測試案例中在所述步驟Al中,,當(dāng)所述視覺特征參數(shù)為顏色設(shè)置參數(shù)時,對應(yīng)的不可見特征要求為該超鏈接的顏色設(shè)置參數(shù)與所述待檢測網(wǎng)頁背景顏色一致;或者當(dāng)所述視覺特征參數(shù)為字體參數(shù)時,,對應(yīng)的不可見特征要求為該超鏈接的字體參數(shù)的值小于或等于預(yù)設(shè)的字體參數(shù)閥值;或者當(dāng)所述視覺特征參數(shù)為關(guān)鍵字位置參數(shù)時,,對應(yīng)的不可見特征要求為該超鏈接的關(guān)鍵字位置在所述待檢測網(wǎng)頁的可見范圍之外;或者當(dāng)所述視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時,對應(yīng)的不可見特征要求為該超鏈接以跑馬燈形式閃現(xiàn)或者不顯示,。
百度黑鏈檢測算法的測試案例中所述惡意特征數(shù)據(jù)庫存儲有被確定為黑鏈的鏈接;該方法還包括:從網(wǎng)頁庫中獲取超鏈接中包含了所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁,對該網(wǎng)頁中的其他超鏈接逐一執(zhí)行所述黑鏈檢測流程,,并將檢測出的黑鏈加入所述惡意特征數(shù)據(jù)庫;或者,,從網(wǎng)頁庫中找出與所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁相似度滿足預(yù)設(shè)相似度要求的網(wǎng)頁,,將找出的網(wǎng)頁作為待檢測網(wǎng)頁轉(zhuǎn)至步驟Sl處開始執(zhí)行,,然后將檢測出的黑鏈加入所述惡意特征數(shù)據(jù)庫。一種檢測黑鏈的裝置,,該裝置包括:鏈接提取模塊,,用于提取待檢測網(wǎng)頁的超鏈接,并將提取的超鏈接逐一提供給檢測模塊;檢測模塊,,用于判斷超鏈接的視覺特征參數(shù)是否滿足預(yù)設(shè)的不可見特征要求,,如果是,則將該超鏈接發(fā)送給黑鏈確定模塊;黑鏈確定模塊,,用于將接收到的超鏈接確定為黑鏈,。
百度黑鏈檢測算法的測試案例中該裝置還包括:引用次數(shù)判斷模塊,用于在所述檢測模塊的判斷結(jié)果為否時,,判斷該超鏈接的外鏈引用次數(shù)是否超過預(yù)設(shè)的次數(shù)閡值,,如果是,,則將該超鏈接發(fā)送給所述黑鏈確定模塊。百度黑鏈檢測算法的測試案例中該裝置還包括:白名單維護(hù)模塊,,用于在所述引用次數(shù)判斷模塊的判斷結(jié)果為否時,,將該超鏈接加入白名單數(shù)據(jù)庫。百度黑鏈檢測算法的測試案例中該裝置還包括:白名單判斷模塊,,用于將所述待檢測網(wǎng)頁的網(wǎng)址與已有白名單數(shù)據(jù)庫進(jìn)行匹配,,如果匹配得上,則確定所述待檢測網(wǎng)頁不存在黑鏈;否則,,觸發(fā)所述鏈接提取模塊,。百度黑鏈檢測算法的測試案例中該裝置還包括:惡意特征匹配模塊,用于獲取發(fā)送給所述黑鏈確定模塊的超鏈接,,獲取該超鏈接的網(wǎng)頁內(nèi)容特征,,將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配,如果匹配得上,,則將該超鏈接發(fā)送給所述黑鏈確定模塊。百度黑鏈檢測算法的測試案例中所述惡意特征數(shù)據(jù)庫中存儲有被識別為黑鏈的網(wǎng)頁的關(guān)鍵詞;所述惡意特征匹配模塊在將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配時,,具體將獲取的該超鏈接的網(wǎng)頁標(biāo)題title或網(wǎng)頁元信息Meta與所述惡意特征數(shù)據(jù)庫中存儲的關(guān)鍵詞進(jìn)行匹配,。
百度黑鏈檢測算法的測試案例中該裝置還包括:惡意特征庫維護(hù)模塊,用于在所述黑鏈確定模塊將該超鏈接確定黑鏈后,,從該黑鏈的網(wǎng)頁中進(jìn)一步提取關(guān)鍵詞,,將該關(guān)鍵詞存儲于惡意特征數(shù)據(jù)庫。百度黑鏈檢測算法的測試案例中在所述檢測模塊中,,當(dāng)所述視覺特征參數(shù)為顏色設(shè)置參數(shù)時,,采用的不可見特征要求為該超鏈接的顏色設(shè)置參數(shù)與所述待檢測網(wǎng)頁背景顏色一致;或者當(dāng)所述視覺特征參數(shù)為字體參數(shù)時,采用的不可見特征要求為該超鏈接的字體參數(shù)的值小于或等于預(yù)設(shè)的字體參數(shù)I-7值;或者當(dāng)所述視覺特征參數(shù)為關(guān)鍵字位置參數(shù)時,,采用的不可見特征要求為該超鏈接的關(guān)鍵字位置在所述待檢測網(wǎng)頁的可見范圍之外;或者當(dāng)所述視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時,,采用的不可見特征要求為該超鏈接以跑馬燈形式閃現(xiàn)或者不顯示。百度黑鏈檢測算法的測試案例中所述惡意特征數(shù)據(jù)庫存儲有被確定為黑鏈的鏈接;該裝置還包括:惡意特征庫挖掘模塊,,用于從網(wǎng)頁庫中獲取超鏈接中包含了所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁,,將該網(wǎng)頁中的其他超鏈接逐一提供給所述檢測模塊,并將所述黑鏈確定模塊確定的黑鏈加入所述惡意特征數(shù)據(jù)庫;或者,,從網(wǎng)頁庫中找出與所述惡意特征數(shù)據(jù)庫中鏈接的網(wǎng)頁相似度滿足預(yù)設(shè)相似度要求的網(wǎng)頁,,將找出的網(wǎng)頁作為待檢測網(wǎng)頁提供給所述鏈接提取模塊,然后將所述黑鏈確定模塊確定的黑鏈加入所述惡意特征數(shù)據(jù)庫,。
由以上技術(shù)方案可以看出,,百度黑鏈檢測算法提供了一種自動實(shí)現(xiàn)黑鏈檢測的方式,無需手工操作,,不再受限于網(wǎng)站管理員對黑鏈知識的掌握,,由于百度黑鏈檢測算法基于黑鏈的基本行為特性,,即不可見的視覺特征,因此即便是新出現(xiàn)的黑鏈,,只要滿足該基本行為特性均能夠及時有效地發(fā)現(xiàn),。
【附圖說明】
圖1為百度黑鏈檢測算法實(shí)施例一提供的檢測黑鏈的方法流程圖;圖2為百度黑鏈檢測算法實(shí)施例二提供的對超鏈接的視覺特征參數(shù)進(jìn)行檢測的流程圖;圖3為百度黑鏈檢測算法實(shí)施例四提供的檢測黑鏈的裝置結(jié)構(gòu)圖。
【具體實(shí)施方式】為了使百度黑鏈檢測算法的目的,、技術(shù)方案和優(yōu)點(diǎn)更加清楚,,下面結(jié)合附圖和具體實(shí)施例對百度黑鏈檢測算法進(jìn)行詳細(xì)描述。
實(shí)施例一,、圖1為百度黑鏈檢測算法實(shí)施例一提供的檢測黑鏈的方法流程圖,,如圖1所示,該方法可以包括以下步驟:步驟101:將待檢測網(wǎng)頁的網(wǎng)址與已有的白名單數(shù)據(jù)庫進(jìn)行匹配,,如果待檢測網(wǎng)頁存在于白名單數(shù)據(jù)庫中,,則確定該待檢測網(wǎng)頁不存在黑鏈,結(jié)束流程;否則執(zhí)行步驟102,。進(jìn)行黑鏈檢測時,,可以首先調(diào)用白名單數(shù)據(jù)庫進(jìn)行檢測。在百度黑鏈檢測算法實(shí)施例中可以預(yù)先將已經(jīng)確認(rèn)的沒有被掛黑鏈的網(wǎng)頁的url存儲在白名單數(shù)據(jù)庫中,,該白名單數(shù)據(jù)庫可以是一個動態(tài)更新的數(shù)據(jù)庫,,可以采用手工方式進(jìn)行添加,也可以在本實(shí)施例步驟104中確定某超鏈接安全時,,將該超鏈接加入白名單數(shù)據(jù)庫,。本步驟用于提高黑鏈的檢測效率,并不是百度黑鏈檢測算法的必要步驟,。步驟102:提取該待檢測網(wǎng)頁的超鏈接,,逐一對獲取的超鏈接執(zhí)行步驟103至步驟106。針對待檢測網(wǎng)頁進(jìn)行黑鏈檢測時,,目的是為了檢測該待檢測網(wǎng)頁中是否被掛上了黑鏈,,因此提取其中所有的超鏈接,逐一進(jìn)行檢測,。步驟103:判斷超鏈接的視覺特征參數(shù)是否滿足預(yù)設(shè)的不可見特征要求,,如果是,則確定該超鏈接為可疑鏈接,,執(zhí)行步驟105;否則,,執(zhí)行步驟1040經(jīng)觀察被掛的黑鏈通常都具有一些不可見特征,目的是為了不易被察覺,,這些特征通過鏈接的視覺特征參數(shù)體現(xiàn),,這些視覺特征參數(shù)包括但不限于:顏色設(shè)置參數(shù)、字體參數(shù),、關(guān)鍵字位置參數(shù),、鏈接展現(xiàn)參數(shù)等中的一種或任意組合,。當(dāng)視覺特征參數(shù)為顏色設(shè)置參數(shù)時,對應(yīng)的不可見特征要求可以為該超鏈接的顏色設(shè)置參數(shù)與待檢測網(wǎng)頁背景顏色一致,。當(dāng)視覺特征參數(shù)為字體參數(shù)時,,其中字體參數(shù)可以為:字體大小和/或字體高度,對應(yīng)的不可見特征要求可以為該超鏈接的字體參數(shù)的值小于或等于預(yù)設(shè)字體參數(shù)閥值,。例如,,字體大小小于1像素,或者,,字體高度小于1像素等,。當(dāng)視覺特征參數(shù)為關(guān)鍵字位置參數(shù)時,關(guān)鍵字位置參數(shù)可以通過div標(biāo)簽中的left和top參數(shù)體現(xiàn),,對應(yīng)的不可見特征要求可以為該超鏈接的關(guān)鍵字位置在待檢測網(wǎng)頁的可見范圍之外,。當(dāng)視覺特征參數(shù)為鏈接展現(xiàn)參數(shù)時,鏈接展現(xiàn)參數(shù)可以為滾動文字(marquee)標(biāo)簽中的,,此時對應(yīng)的不可見特征要求可以為該超鏈接以跑馬燈形式閃現(xiàn);鏈接展現(xiàn)參數(shù)還可以為顯示屬性(display)參數(shù),,該參數(shù)可以是div標(biāo)簽中的、document.write中的或者java中的,,此時對應(yīng)的不可見特征要求為該超鏈接不顯示,。具體檢測將以實(shí)施例二為例進(jìn)行描述。
步驟104:判斷該超鏈接的外鏈引用次數(shù)是否超過預(yù)設(shè)的次數(shù)閥值,,如果是,則確定該超鏈接為可疑鏈接,,執(zhí)行步驟105;否則將該超鏈接加入白名單數(shù)據(jù)庫,,結(jié)束對該超鏈接的判斷流程。在通過步驟103所述的檢測方式?jīng)]有確定出可疑鏈接時,,還可以通過本步驟進(jìn)行進(jìn)一步的判斷,,如果一個超鏈接被掛在其他網(wǎng)頁上的次數(shù),即外鏈引用次數(shù),,超過預(yù)設(shè)的次數(shù)閡值,,說明該超鏈接多次被掛在其他網(wǎng)頁上,這通常是不正常的現(xiàn)象,,例如多個視頻或音頻等網(wǎng)頁上均掛了一個相同的賣藥的超鏈接,,則該賣藥的超鏈接很有可能就是黑鏈。其中預(yù)設(shè)的次數(shù)閥值通常采用經(jīng)驗值,。優(yōu)選地,,在判斷出該超鏈接的外鏈引用次數(shù)沒有超過預(yù)設(shè)的次數(shù)閥值時,可以進(jìn)一步存在一個審核的步驟,,待審核確認(rèn)后可以將該超鏈接加入白名單,,從而避免誤報,。步驟105:獲取該超鏈接的網(wǎng)頁內(nèi)容特征。在確定出可疑鏈接時,,為了提高檢測準(zhǔn)確性,,可以進(jìn)一步對該超鏈接進(jìn)行基于內(nèi)容特征的檢測。本步驟中獲取的網(wǎng)頁內(nèi)容特征可以包括但不限于:網(wǎng)頁標(biāo)題(title),、網(wǎng)頁元信息((Metes)等,。步驟106:將獲取的內(nèi)容特征與已挖掘出的惡意特征數(shù)據(jù)庫進(jìn)行匹配,如果匹配得上,,則確定該超鏈接為黑鏈,。
百度黑鏈檢測算法實(shí)施例中惡意特征數(shù)據(jù)庫的形成可以通過手工的方式預(yù)先設(shè)置,也可以通過自動挖掘的方式形成,。惡意特征數(shù)據(jù)庫中至少存儲有被識別為黑鏈的網(wǎng)頁的關(guān)鍵詞,,該關(guān)鍵詞可以從網(wǎng)頁title和/或Metes中提取,關(guān)鍵詞用于在黑鏈檢測過程中將超鏈接的內(nèi)容特征與惡意特征數(shù)據(jù)庫進(jìn)行匹配時使用,,即將從超鏈接的網(wǎng)頁中提取的title或Metes與惡意特征數(shù)據(jù)庫中的關(guān)鍵詞進(jìn)行匹配,,如果匹配得上,則可以確認(rèn)該超鏈接為黑鏈,,也就是說被檢測網(wǎng)頁存在黑鏈,,如果沒有匹配上,則可以確認(rèn)該超鏈接為安全的鏈接,。除此之外,,惡意特征數(shù)據(jù)庫還可以存儲有被識別為黑鏈的網(wǎng)頁url,用于進(jìn)行惡意特征數(shù)據(jù)庫的進(jìn)一步挖掘,,該過程將在實(shí)施例三中詳細(xì)描述,。
在此從確定出的黑鏈的網(wǎng)頁中進(jìn)一步提取關(guān)鍵詞,將該關(guān)鍵詞存入惡意特征數(shù)據(jù)庫,,并將該黑鏈存入惡意特征數(shù)據(jù)庫,。在確定出黑鏈之后,可以將黑鏈和掛黑鏈的網(wǎng)頁(即待檢測網(wǎng)頁)進(jìn)行上報,。需要說明的是,,上述步驟105和步驟106可以是進(jìn)一步的過程,如果不需要足夠高的準(zhǔn)確度,,也可以直接將可疑鏈接確定為黑鏈,。
實(shí)施例二、圖2為百度黑鏈檢測算法實(shí)施例二提供的對超鏈接的視覺特征參數(shù)進(jìn)行檢測的流程圖,,如圖2所示,,該流程可以具體包括以下步驟:步驟201:獲取超鏈接的顏色設(shè)置參數(shù)。步驟202:判斷該顏色設(shè)置參數(shù)是否與被檢測網(wǎng)頁的網(wǎng)頁背景顏色設(shè)置一致,如果是,,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2030如果超鏈接的顏色設(shè)置與其被掛在的網(wǎng)頁背景顏色設(shè)置一致,,這種情況該超鏈接不易被察覺,很有可能是黑鏈,。這種黑鏈實(shí)現(xiàn)代碼為:步驟203:獲取該超鏈接的字體大小(font-size)參數(shù)和字體高度(line-size)參數(shù),。本步驟是獲取超鏈接的字體參數(shù)。步驟204:判斷font-size或line-size是否小于或等于1像素,,如果是,,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2050此處1像素是采用的一個經(jīng)驗值,如果超鏈接的鏈接文字大小小于或等于1像素,,則不易被察覺,,很有可能為黑鏈。這種黑鏈實(shí)現(xiàn)代碼為:步驟203:獲取該超鏈接的字體大小(font-size)參數(shù)和字體高度(line-size)參數(shù),。本步驟是獲取超鏈接的字體參數(shù),。步驟204:判斷font-size或line-size是否小于或等于1像素,如果是,,則確定該超鏈接為可疑鏈接;否則執(zhí)行步驟2050此處1像素是采用的一個經(jīng)驗值,,如果超鏈接的鏈接文字大小小于或等于1像素,則不易被察覺,,很有可能為黑鏈,。
本文由:登封招聘網(wǎng)轉(zhuǎn)載發(fā)布!
|
|