您當前所在位置:知道(dào)網絡 > 新聞 > 行(xíng)業新聞

我們

哪些(xiē)因素會(huì)影(yǐng)響百度爬蟲對網站(zhàn)的抓取量?
        首先介紹一下百度爬蟲抓取量。
        其實就是百度爬蟲對站(zhàn)點一天抓取網頁的數(shù)量,從百度內(nèi)部透露來(lái)說,一般會(huì)抓兩種網頁,其中一個(gè)是這個(gè)站(zhàn)點産生(shēng)新的網頁,一般 中小(xiǎo)型站(zhàn)當天就可(kě)以完成,大(dà)型網站(zhàn)可(kě)能完成不了,另一種是百度以前抓過的網頁,它是需要更新的,比如一個(gè)站(zhàn)點已經被百度收錄了5w,那(nà)麽百度會(huì)給出一個(gè)時(shí) 間(jiān)段,比如30天,然後平均一下,每天到這個(gè)站(zhàn)點上(shàng)面抓5W/30的這樣一個(gè)數(shù)字,但(dàn)是具體(tǐ)的量,百度有(yǒu)自己的一套算(suàn)法公式來(lái)計(jì)算(suàn)。
青島網絡公司哪家(jiā)專業

1、站(zhàn)點安全

對于中小(xiǎo)型站(zhàn)點,在安全技(jì)術(shù)上(shàng)比較薄弱,被黑(hēi)被篡改的現象非常常見,一般被黑(hēi)有(yǒu)常見幾種情況,一種是主域被黑(hēi),一種是标題被篡改,還(hái)有(yǒu)一種是在頁面裏面加 了很(hěn)多(duō)的外鏈。一般主域被黑(hēi)就是被劫持,就是主域被進行(xíng)301的跳(tiào)轉到指定的網站(zhàn),而如果在百度那(nà)邊發現跳(tiào)轉後的是一些(xiē)垃圾站(zhàn),那(nà)麽你(nǐ)這個(gè)站(zhàn)點抓取量會(huì)裏 面降低(dī)。

2、內(nèi)容質量

如果抓取了10萬條,而隻有(yǒu)100條建庫了,那(nà)麽抓取量還(hái)會(huì)降下來(lái),因為(wèi)百度會(huì)認為(wèi)抓取的網頁比例很(hěn)低(dī),那(nà)麽就沒必要去抓取更多(duō),所以要"甯缺毋濫",特别要注意在建站(zhàn)的時(shí)候一定要注意質量,不要采集一些(xiē)內(nèi)容,這是一種潛在的隐患。

3、站(zhàn)點響應速度

①網頁的大(dà)小(xiǎo)會(huì)影(yǐng)響抓取,百度建議網頁的大(dà)小(xiǎo)在1M以內(nèi),當然類似大(dà)的門(mén)戶網站(zhàn),如新浪另說。

②代碼質量、機器(qì)的性能及帶寬,這個(gè)不多(duō)說,後續筆者會(huì)單獨拿(ná)出一篇文章講解,請(qǐng)實時(shí)關注“營銷小(xiǎo)能手”。

4.同ip上(shàng)面主域的數(shù)量

百度抓取都是按照ip進行(xíng)去抓取的,比如在一個(gè)ip上(shàng)一天抓取了1000w個(gè)頁面,而在這個(gè)站(zhàn)點上(shàng)有(yǒu)40W的站(zhàn)點,那(nà)麽平均下來(lái)抓取每個(gè)站(zhàn)點的數(shù)量會(huì)分的 很(hěn)少(shǎo),所以在選擇服務商的時(shí)候,要看一看同ip上(shàng)面有(yǒu)沒有(yǒu)大(dà)站(zhàn),如果有(yǒu)大(dà)站(zhàn)的話(huà),可(kě)能會(huì)被分得(de)的抓取量會(huì)很(hěn)少(shǎo)因為(wèi)流量都跑大(dà)站(zhàn)上(shàng)面去了。

青島知道(dào)網絡-專注企業網站(zhàn)建設與網絡推廣-全網整合營銷

推薦閱讀