1、站(zhàn)點安全
對于中小(xiǎo)型站(zhàn)點,在安全技(jì)術(shù)上(shàng)比較薄弱,被黑(hēi)被篡改的現象非常常見,一般被黑(hēi)有(yǒu)常見幾種情況,一種是主域被黑(hēi),一種是标題被篡改,還(hái)有(yǒu)一種是在頁面裏面加 了很(hěn)多(duō)的外鏈。一般主域被黑(hēi)就是被劫持,就是主域被進行(xíng)301的跳(tiào)轉到指定的網站(zhàn),而如果在百度那(nà)邊發現跳(tiào)轉後的是一些(xiē)垃圾站(zhàn),那(nà)麽你(nǐ)這個(gè)站(zhàn)點抓取量會(huì)裏 面降低(dī)。
2、內(nèi)容質量
如果抓取了10萬條,而隻有(yǒu)100條建庫了,那(nà)麽抓取量還(hái)會(huì)降下來(lái),因為(wèi)百度會(huì)認為(wèi)抓取的網頁比例很(hěn)低(dī),那(nà)麽就沒必要去抓取更多(duō),所以要"甯缺毋濫",特别要注意在建站(zhàn)的時(shí)候一定要注意質量,不要采集一些(xiē)內(nèi)容,這是一種潛在的隐患。
3、站(zhàn)點響應速度
①網頁的大(dà)小(xiǎo)會(huì)影(yǐng)響抓取,百度建議網頁的大(dà)小(xiǎo)在1M以內(nèi),當然類似大(dà)的門(mén)戶網站(zhàn),如新浪另說。
②代碼質量、機器(qì)的性能及帶寬,這個(gè)不多(duō)說,後續筆者會(huì)單獨拿(ná)出一篇文章講解,請(qǐng)實時(shí)關注“營銷小(xiǎo)能手”。
4.同ip上(shàng)面主域的數(shù)量
百度抓取都是按照ip進行(xíng)去抓取的,比如在一個(gè)ip上(shàng)一天抓取了1000w個(gè)頁面,而在這個(gè)站(zhàn)點上(shàng)有(yǒu)40W的站(zhàn)點,那(nà)麽平均下來(lái)抓取每個(gè)站(zhàn)點的數(shù)量會(huì)分的 很(hěn)少(shǎo),所以在選擇服務商的時(shí)候,要看一看同ip上(shàng)面有(yǒu)沒有(yǒu)大(dà)站(zhàn),如果有(yǒu)大(dà)站(zhàn)的話(huà),可(kě)能會(huì)被分得(de)的抓取量會(huì)很(hěn)少(shǎo)因為(wèi)流量都跑大(dà)站(zhàn)上(shàng)面去了。