集群網站建設—搜索引擎如何區分原創內容?
.jpg)
1、對文章的內容進行分析比較
首先從搜索引擎角度去考慮:
用戶在做偽原創的時候,會經常用到的方法有:
(1)刪除部分內容
(2)添加部分內容。在復制過來的文章里添加上兩句,或是把多篇文章合在一起。
(3)調換內容順序。把原文1.A,2.B,3.C,4.D,5.E 改成 1.C,2.B,3.E,4.A,5. D
用分詞技術后對相關的內容進行比較,分析項目有:
(1)字數大小
(2)幾個關鍵字出現頻率
(3)文中任幾句話
(4)鏈接
程序分析過程:
如果 (字數大小一樣)并且(幾個關鍵字出現頻率一樣)并且(文中任幾句話一樣)并且(鏈接指向與本文有90%以上的相似度的文章)
或者 文中任5句(長短不一,可能是5-30個字)以上的話是一致的
那么 判定為抄襲或偽原創。
由上面的程序分析過程中,可以看出:簡單的刪除內容、添加合并部分內容、調換內容順序、段落順序并不能讓搜索引擎當做原創。為什么?因為用如上簡單的的方法就可以看出大概了。字數大小、幾個關鍵字出現頻率、鏈接這都好辦,文中任幾句話對比這就不好辦了。
2、標題
如果是一樣的,那很有可能是復制,但要是改了一下標題呢,如把《成都租車常識》改成《教您怎樣在成都租車》,意思沒變,文字變了。所以,不能僅靠標題來判斷是不是原創。但可以做以下分析:
因為搜索引擎的數據量實在太大,不可能對所有的內容進行遂一的結比,而是同樣是使用“分詞“技術:
(1)如果搜索引擎蛛蛛訪問的頁面是一個新的頁面,那么,它將先把這個頁面內容收集起來,放入一個數據庫(或是其它),等其它程序如專門對比內容是不是原創、是不是有價值的程序進行處理。這時候,這個內容將不會被搜索出來。
(2)分析內容。也是利用了分詞技術,對標題、內容等進行分析。得出了這個頁面的主要內容。如《周杰倫2010年專輯》這樣的篇文章時,它將與包括”周杰倫“、”2010“、”專輯“這樣的關鍵詞的文章進行比較,而不用與所有的網頁進行比較。如果結果是原創、比較有價值,則進行收錄,給比較高的權重。如果被認為是復制或抄襲,則不進行收錄,或是給的權重很低。順便要說的是,對于這個頁面的權重,不僅僅是跟其本身的內容、本身的內容有關,能不能有好的排名,還要跟整個站點的權重有關。打個比方,如果這個頁面的權重是3,網站的權重是3,那加起來是6。要是別的網站轉載了這個文章,文章的權重是1,但他的網站的權重是7,那加起來就是8。6<8所以轉載的文章還是會排在原創文章的前面。
信息來源尚品中國:集群網站建設
推薦新聞
更多行業-
可以提高網站外鏈質量絕秘妙招
可以提高網站外鏈質量絕秘妙招大家都知道隨著個人北京網站制作網站的盛行,...
2012-01-07 -
怎樣選擇專業的網站建設公司?
企業可以在互聯網上設立網站,可以讓企業信息到達世界的每一個角落。同時,...
2021-01-20 -
目前有效的營銷方式有哪些
網絡營銷中能用的方式太多了,數都數不清,可以說只要是人用的媒介都可以作...
2014-05-29 -
廊坊網站建設哪家公司好?
21世紀是互聯網信息爆炸的時代。事實上,網站或企業需要通過互聯網進行推...
2020-05-27 -
當你改版了整站鏈接之后
無論是什么網站轉載,同樣的文章在googl中。都會將原作者的原始文章排...
2012-07-06 -
企業網站建設如何體現價值
優秀的網站當然代表優秀的企業形象!而粗制濫造的網站怎么能讓客戶對企業有...
2012-11-19
預約專業咨詢顧問溝通!
免責聲明
非常感謝您訪問我們的網站。在您使用本網站之前,請您仔細閱讀本聲明的所有條款。
1、本站部分內容來源自網絡,涉及到的部分文章和圖片版權屬于原作者,本站轉載僅供大家學習和交流,切勿用于任何商業活動。
2、本站不承擔用戶因使用這些資源對自己和他人造成任何形式的損失或傷害。
3、本聲明未涉及的問題參見國家有關法律法規,當本聲明與國家法律法規沖突時,以國家法律法規為準。
4、如果侵害了您的合法權益,請您及時與我們,我們會在第一時間刪除相關內容!
聯系方式:010-60259772
電子郵件:394588593@qq.com