文章原創度!為(wèi)什麽抄襲者的網站(zhàn)更容易收錄?
并不是你(nǐ)網站(zhàn)有(yǒu)文章,是你(nǐ)自己寫的,就一定會(huì)被搜索引擎認為(wèi)這是一篇原創文章,因為(wèi)其中還(hái)有(yǒu)很(hěn)多(duō)技(jì)術(shù)方面的問題,搜索引擎還(hái)未能解決。記得(de)我曾經在一個(gè)網站(zhàn)每天更新一篇文章,一篇文章的字數(shù)隻有(yǒu)100字左右,但(dàn)是文章頁面非常簡單,簡單到整個(gè)頁面沒有(yǒu)JS、CSS、HTML代碼,隻有(yǒu)文字,但(dàn)收錄卻非常好,而有(yǒu)一些(xiē)網站(zhàn),用JS、CSS、html代碼把網站(zhàn)修飾的非常漂亮,但(dàn)是發布的文章卻不收錄,這讓我開(kāi)始覺得(de)代碼與原創度有(yǒu)直接關系。
我忘記了,在哪裏看到過這樣的一句話(huà)“搜索引擎隻能識别200KB以內(nèi)的內(nèi)容”,對于一個(gè)網頁而言,200KB算(suàn)是很(hěn)大(dà)了,如果你(nǐ)的網站(zhàn)有(yǒu)超過200KB,我覺得(de)你(nǐ)是應該要優化了。
這和(hé)網站(zhàn)的文件大(dà)小(xiǎo)有(yǒu)什麽關系呢?好,我們來(lái)看看,搜索引擎在抓取一個(gè)頁面的流程是從頭到底,任何一個(gè)頁面都有(yǒu)一個(gè)共同點,那(nà)就是頭部一樣、底部一樣,唯一不一樣的就是文章內(nèi)容,那(nà)麽搜索引擎在抓取頭部有(yǒu)10KB左右是一模一樣的,到中部文字的時(shí)候隻有(yǒu)2KB是不一樣的,而底部又有(yǒu)10KB是一模一樣的,那(nà)麽還(hái)會(huì)認為(wèi)這是原創文章嗎?
這裏還(hái)得(de)給大(dà)家(jiā)灌輸一個(gè)理(lǐ)念,那(nà)就是搜索引擎是不認識字的,他隻有(yǒu)把這個(gè)漢字放到他的數(shù)據庫去對比,當一對比一個(gè)新文章頁面的時(shí)候,總共22KB的頁面,居然有(yǒu)20KB一模一樣,就算(suàn)是寫了原創文章,也會(huì)被列入到僞原創的列表中去。
經過SEO優化加測試,對原創文章的判斷得(de)出了這樣的一個(gè)理(lǐ)論,當一個(gè)頁面比較大(dà)的時(shí)候,一個(gè)頁面的不同點至少(shǎo)占頁面的1/3,那(nà)麽寫多(duō)少(shǎo)文字呢,比如你(nǐ)頁面有(yǒu)10KB,那(nà)麽至少(shǎo)的寫3KB的文字,剩下的7KB相同,這些(xiē)才不容易被列入到僞原創的列表中。當然,這是個(gè)人(rén)得(de)出的理(lǐ)論,并沒有(yǒu)完全的證據和(hé)理(lǐ)論來(lái)證明(míng)。
為(wèi)什麽抄襲者的網站(zhàn)更容易收錄?
那(nà)麽還(hái)有(yǒu)一個(gè)問題來(lái)了,既然要抓取、識别、釋放這麽複雜的流程,為(wèi)何抄襲我們網站(zhàn)的內(nèi)容還(hái)先收錄呢,這是大(dà)家(jiā)很(hěn)糾結的這個(gè)問題,我也糾結了很(hěn)久。
在談論抄襲者網站(zhàn)為(wèi)何會(huì)收錄塊的時(shí)候,我覺得(de)咱們先要搞清楚新聞內(nèi)容是收錄流程,新聞內(nèi)容相對普通(tōng)的內(nèi)容收錄較快,因為(wèi)新聞內(nèi)容具有(yǒu)時(shí)效性,所以必須當場(chǎng)發當場(chǎng)收錄,然後釋放出來(lái),不然拖到第二天在收錄的話(huà),這個(gè)新聞可(kě)能不熱了,關注的人(rén)也就少(shǎo)了,百度從而失去了這個(gè)體(tǐ)驗。
而抄襲者的網站(zhàn)與新聞內(nèi)容類似,通(tōng)常抄襲者的網站(zhàn)是抄襲過多(duō)篇文章,其中有(yǒu)直接抄襲原創者,也就抄襲二手文章,抄來(lái)抄去,互聯網同樣的文章就非常多(duō)了,當一篇文章被互聯網多(duō)次抄襲,這就意味着這篇文章比較熱門(mén),不熱門(mén)怎麽會(huì)這麽多(duō)人(rén)抄襲呢?最終就出現了一個(gè)熱點效應,收錄的門(mén)檻也就降低(dī)了。所以就出現了抄襲者抄襲了你(nǐ)的文章,比你(nǐ)還(hái)先收錄。