1、抓取異常究竟指什么
對(duì)于互聯(lián)網(wǎng)中可正常訪問的頁面,通過百度蜘蛛抓取所獲取到的內(nèi)容應(yīng)與普通用戶訪問到是一致的,而抓取異常是除此以外的情況。
2、網(wǎng)站抓取異常有什么嚴(yán)重的影響
如果網(wǎng)站中存在大量網(wǎng)頁抓取異常,網(wǎng)站就會(huì)被搜索引擎認(rèn)為存在用戶體驗(yàn)上的缺陷,從而對(duì)網(wǎng)站的評(píng)價(jià)將會(huì)受到大幅度的影響,而網(wǎng)站在百度搜索引擎中的表現(xiàn)將會(huì)被終影響到。推薦閱讀:什么樣的網(wǎng)站利于百度蜘蛛抓取
3、關(guān)于死鏈接
死鏈接就是指那些頁面已經(jīng)無效,無法對(duì)用戶提供任何有價(jià)值信息的頁面,包括協(xié)議死鏈和內(nèi)容死鏈兩種形式。
什么是協(xié)議死鏈:如404、403、503狀態(tài)等常見死鏈會(huì)在頁面的TCP協(xié)議狀態(tài)/HTTP協(xié)議狀態(tài)中有明確的表示。
什么是內(nèi)容死鏈;對(duì)于服務(wù)器來說,它有著正常的服務(wù)器狀態(tài),但是已經(jīng)變更為不存在內(nèi)容、或者是已刪除或需要權(quán)限等與原內(nèi)容無關(guān)的信息頁面。
對(duì)于死鏈,建議對(duì)死鏈數(shù)據(jù)進(jìn)行及時(shí)修復(fù),或推送死鏈數(shù)據(jù),為使搜索引擎更快地發(fā)現(xiàn)死鏈,將死鏈對(duì)用戶以及搜索引擎的影響減少。推薦閱讀:如何吸引百度蜘蛛與抓取的頻率
4、關(guān)于IP禁封
對(duì)網(wǎng)絡(luò)的出口IP地址進(jìn)行限制,禁止該IP段的使用者進(jìn)行內(nèi)容訪問,就是禁封。
5、關(guān)于UA禁封
用戶代理(User-Agent)即是UA,服務(wù)器是通過UA才能識(shí)別訪問者的身份。而UA禁封就是網(wǎng)站針對(duì)指定UA的訪問,返回異常頁面(如403,500)或跳轉(zhuǎn)到其他頁面的情況。
6、關(guān)于異常重定向
即為重定向?qū)⒕W(wǎng)絡(luò)請(qǐng)求重新指向其他位置。永久重定向(301跳轉(zhuǎn)協(xié)議)和暫時(shí)重定向(302跳轉(zhuǎn)協(xié)議),目前百度都可以識(shí)別和支持是兩種常見的重定向。
對(duì)于長(zhǎng)時(shí)間跳轉(zhuǎn)到其他域名的情況,如網(wǎng)站更換域名,建議您使用301跳轉(zhuǎn)協(xié)議。
7、其他異常
針對(duì)百度refer的作弊:這是網(wǎng)頁針對(duì)從百度的refer返回不同于正常內(nèi)容的行為的一種反應(yīng)。針對(duì)百度ua的作弊:網(wǎng)頁對(duì)百度UA返回不同于頁面原內(nèi)容的行為。
JS跳轉(zhuǎn)作弊:用戶在通過搜索結(jié)果進(jìn)入頁面后發(fā)生了跳轉(zhuǎn)的情況,這是由于網(wǎng)頁加載了百度無法識(shí)別的JS跳轉(zhuǎn)代碼。
壓力過大引起的偶然禁封:根據(jù)站點(diǎn)的規(guī)模,訪問量等信息,百度會(huì)自動(dòng)設(shè)定一個(gè)合理的抓取壓力。但是如壓力控制失常等異常情況下,根據(jù)自身負(fù)荷,服務(wù)器會(huì)進(jìn)行保護(hù)性的偶然封禁。這種情況下,會(huì)在返回碼中返回其含義是 “Service Unavailable ,如果網(wǎng)站已空閑,等百度蜘蛛會(huì)過段時(shí)間再來嘗試抓取時(shí),這個(gè)鏈接就會(huì)被成功抓取。
咨詢熱線
13683819778聯(lián)系電話
微信掃一掃