搜尋引擎是怎麼判定原創與抄襲

2022-10-05 10:54:29 字數 2042 閱讀 1018

我們知道,**原創內容在搜尋引擎排名中占有重要地位,但做原創內容不容易,偽原創又怕不被當成原創,白做。那麼我們先從搜尋引擎角度去如何判定內容是原創還是抄襲。

很多站長都想利用原創內容來提高自己**的收錄與排名,但是做原創內容並不是一件容易的事,偶爾一兩篇應該還行,要是一天一兩篇,很多多人也是受不了,因為大多數站長都不是作家那樣行如流水。比如要寫一篇seo的原創文章,若是自己本身都還不太了解seo,那肯定是半天都都憋不出乙個字來。所以,如何利用別人的文章來改成偽nfhjfhedfn原創,讓搜尋引擎以為是原創內容,這是很多站長都追求的效果。

之前有人認為搜尋引擎是利用「分詞」與「索引」技術,沒看過的可以看下這篇《**建設中利用搜尋引擎「分詞」和「索引庫」技術來做**排名》位址是: ,大家都很認同。我們來看看2010-02-21在百度搜尋「**建設中常見的div+css問題解決方法」時得出的結果:

從上圖可以看出,搜尋引擎確實是利用了分詞技術:它把「**建設中常見的div+css問題解決方法」分為「**」、」建設」、」常見」、」div」、」css」、」問題」、」解決」、」方法「 還有「**的」,「div+css的」,「**設計」。值得一提的是跟「**建設」相關的「**設計」也以紅字出現。同時,在上面的搜尋關鍵詞中,有「的」也沒有&lnfhjfhedfndquo;的」搜尋結果都是213篇文章,但排名有一點點小的改動。如下圖:

注:以下純屬猜測,如有與搜尋引擎演算法相似,不勝榮幸,歡迎指正。

第一、首先,我們來分析索引擎是如何分析哪些是原創,哪些不是原創的

是原創還是複製別人的文章,要進行判斷,那肯定需要進行「比較」。那怎麼比較?我們先從搜尋引擎地角度去想想看:

1.先是標題

如果是一樣的,那很有可能是複製,但要是改了一下標題呢,如把《如何做偽原創文章》改成《教你怎麼寫偽程式設計客棧原創內容》,意思沒變,文字變了。所以,不能僅靠標題來判斷是不是原創。但可以做以下分析:

因為搜尋引擎的資料量實在太大,不可能對所有的內容進行遂一的結比,而是同樣是使用「分詞「技術:

(1)如果搜尋引擎蛛蛛訪問的頁面是乙個新的頁面,那麼,它將先把這個頁面內容收集起來,放入乙個資料庫(或是其它),等其它程式如專門對比內容是不是原創、是不是有價值的程式進行處理。這時候,這個內容將不會被搜尋出來。

(2)分析內容。也是利用了分詞技術,對標題、內容等進行分析。得出了這個頁面的主要內容。如《周杰倫2023年**》這樣的篇文章時,它將與包括」周杰倫「、」2010「、」**「這樣的關鍵詞的文章進行比較,而不用與所有的網頁進行比較。如果結果是原創、比較有價值,則進行收錄,給比較高的權重。如果被認為是複製或抄襲,則不進行收錄,或是給的權重很低。順便要說的是,對於這個頁面的權重,不僅僅是跟其本身的內容、本身的內容有關,能不能有好的排名,還要跟整個站點的權重有關。打個比方,如果這個頁面的權重是3,**的權重是3,那加起來是6。要是別的****了這個文章,文章的權重是1,但他的**的權重是7,那加起來就是8。6《8所以**的文章還是會排在原創文章的前面。

2.對文章的內容進行分析比較

首先從搜尋引擎角度去考慮:

使用者在做偽原創的時候,會經常用到的方法有:

(1)刪除部分內容

(2)新增部分內容。在複製過來的文章裡新增上兩句,或是把多篇文章合在程式設計客棧一起。

(3)調換內容順序。把原文1.a,2.b,3.c,4.d,5.e 改成 1.c,2.b,3.e,4.a,5. d

用分詞技術後對相關的內容進行比較,分析專案有:

(1)字數大小

(2)幾個關鍵字出現頻率

(3)文中任幾句話

(4)鏈結

程式分析過程:

如果 (字數大小一樣)並且(幾個關鍵字出現頻率一樣)並且(文中任幾句話一樣)並且(鏈結指向與本文有90%以上的相似度的文章)

或者 文中任5句(長短不一,可能是5-30個字)以上的話是一致的,那麼 判定為抄襲或偽原創。

由上面的程式分析過程中,可以看出:簡單的刪除內容、新增合併部分內容、調換內容順序、段落順序並不能讓搜尋引擎當做原創。為什麼?因為用如上簡單的的方法就可以看出大概了。字數大小、幾個關鍵字出現頻率、鏈結這都好辦,文中任幾句話對比這就不好辦了。

文章**:

本文標題: 搜尋引擎是怎麼判定原創與抄襲

本文位址: /news/exp/30311.html

我是怎麼選搜尋引擎的

最近試用了不少搜尋引擎,寫個小總結吧。用的是蘋果電腦,常用瀏覽器是safari。而safari裡只有5個搜尋引擎可選 經過一段時間的使用,慢慢習慣了搜尋結果裡不再是鋪天蓋地的廣告,搜到的資訊的準確度也還不錯。後來,開始實習。公司的wi fi可以無障礙訪問全世界的網際網路。工作時,經常需要搜尋一些技術...

搜尋引擎眼中的原創文章

一 什麼是原創文章 原創文章指的就是在搜尋引擎資料庫中沒有出現過的文章,搜尋引擎喜歡原創內容,但是你要了解,搜尋引擎喜歡的是優質的原創內容,而不是你隨便嘮叨二句的原創就是優質原創,有很多站長就死在 原創 二字上,死死的認為 需要的是純原創,從一開始就是自己寫文章,結果是越寫越沒得寫,越寫越差,最後也...

搜尋引擎是怎麼搜到站內資訊

我看有的電影 比如a電影站裡面的abc資源在a站裡面的搜尋欄可以搜到 但是現在通過直接搜abc就可以搜出來a站裡面的abc的資源 不必再去a站裡面搜尋abc資源 這個是怎麼實現的呢?我看有的電影 比如a電影站裡面的abc資源在a站裡面的搜尋欄可以搜到 但是現在通過直接搜abc就可以搜出來a站裡面的a...