我們

文章原創度！為(wèi)什麽抄襲者的網站(zhàn)更容易收錄？

并不是你(nǐ)網站(zhàn)有(yǒu)文章，是你(nǐ)自己寫的，就一定會(huì)被搜索引擎認為(wèi)這是一篇原創文章，因為(wèi)其中還(hái)有(yǒu)很(hěn)多(duō)技(jì)術(shù)方面的問題，搜索引擎還(hái)未能解決。記得(de)我曾經在一個(gè)網站(zhàn)每天更新一篇文章，一篇文章的字數(shù)隻有(yǒu)100字左右，但(dàn)是文章頁面非常簡單，簡單到整個(gè)頁面沒有(yǒu)JS、CSS、HTML代碼，隻有(yǒu)文字，但(dàn)收錄卻非常好，而有(yǒu)一些(xiē)網站(zhàn)，用JS、CSS、html代碼把網站(zhàn)修飾的非常漂亮，但(dàn)是發布的文章卻不收錄，這讓我開(kāi)始覺得(de)代碼與原創度有(yǒu)直接關系。
我忘記了，在哪裏看到過這樣的一句話(huà)“搜索引擎隻能識别200KB以內(nèi)的內(nèi)容”，對于一個(gè)網頁而言，200KB算(suàn)是很(hěn)大(dà)了，如果你(nǐ)的網站(zhàn)有(yǒu)超過200KB，我覺得(de)你(nǐ)是應該要優化了。
這和(hé)網站(zhàn)的文件大(dà)小(xiǎo)有(yǒu)什麽關系呢?好，我們來(lái)看看，搜索引擎在抓取一個(gè)頁面的流程是從頭到底，任何一個(gè)頁面都有(yǒu)一個(gè)共同點，那(nà)就是頭部一樣、底部一樣，唯一不一樣的就是文章內(nèi)容，那(nà)麽搜索引擎在抓取頭部有(yǒu)10KB左右是一模一樣的，到中部文字的時(shí)候隻有(yǒu)2KB是不一樣的，而底部又有(yǒu)10KB是一模一樣的，那(nà)麽還(hái)會(huì)認為(wèi)這是原創文章嗎?
這裏還(hái)得(de)給大(dà)家(jiā)灌輸一個(gè)理(lǐ)念，那(nà)就是搜索引擎是不認識字的，他隻有(yǒu)把這個(gè)漢字放到他的數(shù)據庫去對比，當一對比一個(gè)新文章頁面的時(shí)候，總共22KB的頁面，居然有(yǒu)20KB一模一樣，就算(suàn)是寫了原創文章，也會(huì)被列入到僞原創的列表中去。
經過SEO優化加測試，對原創文章的判斷得(de)出了這樣的一個(gè)理(lǐ)論，當一個(gè)頁面比較大(dà)的時(shí)候，一個(gè)頁面的不同點至少(shǎo)占頁面的1/3，那(nà)麽寫多(duō)少(shǎo)文字呢，比如你(nǐ)頁面有(yǒu)10KB，那(nà)麽至少(shǎo)的寫3KB的文字，剩下的7KB相同，這些(xiē)才不容易被列入到僞原創的列表中。當然，這是個(gè)人(rén)得(de)出的理(lǐ)論，并沒有(yǒu)完全的證據和(hé)理(lǐ)論來(lái)證明(míng)。
為(wèi)什麽抄襲者的網站(zhàn)更容易收錄?
那(nà)麽還(hái)有(yǒu)一個(gè)問題來(lái)了，既然要抓取、識别、釋放這麽複雜的流程，為(wèi)何抄襲我們網站(zhàn)的內(nèi)容還(hái)先收錄呢，這是大(dà)家(jiā)很(hěn)糾結的這個(gè)問題，我也糾結了很(hěn)久。
在談論抄襲者網站(zhàn)為(wèi)何會(huì)收錄塊的時(shí)候，我覺得(de)咱們先要搞清楚新聞內(nèi)容是收錄流程，新聞內(nèi)容相對普通(tōng)的內(nèi)容收錄較快，因為(wèi)新聞內(nèi)容具有(yǒu)時(shí)效性，所以必須當場(chǎng)發當場(chǎng)收錄，然後釋放出來(lái)，不然拖到第二天在收錄的話(huà)，這個(gè)新聞可(kě)能不熱了，關注的人(rén)也就少(shǎo)了，百度從而失去了這個(gè)體(tǐ)驗。
而抄襲者的網站(zhàn)與新聞內(nèi)容類似，通(tōng)常抄襲者的網站(zhàn)是抄襲過多(duō)篇文章，其中有(yǒu)直接抄襲原創者，也就抄襲二手文章，抄來(lái)抄去，互聯網同樣的文章就非常多(duō)了，當一篇文章被互聯網多(duō)次抄襲，這就意味着這篇文章比較熱門(mén)，不熱門(mén)怎麽會(huì)這麽多(duō)人(rén)抄襲呢?最終就出現了一個(gè)熱點效應，收錄的門(mén)檻也就降低(dī)了。所以就出現了抄襲者抄襲了你(nǐ)的文章，比你(nǐ)還(hái)先收錄。

我們

推薦閱讀