03.06 文章的原創怎麼判斷?

鐵柺李的腿


文章原創怎麼判斷?這個問題好像確實成了一個問題,很多年前這不是一個問題,起碼不是一個大問題,八、九十年代時,在我們頭腦裡抄襲人家的文章是比現實社會里偷盜更叫人感覺無恥的事情,可現在竟然連原創怎麼判斷都成問題了?

據我知道,現在法律方面判斷是否抄襲,有其專門的一套計算、分析方式,比如主題思想方面多大程度的一致性,比如都是將愛情至上的,關鍵在於原創的文章,無論散文還是小說,都必然會有作者獨特的感受、理念滲透在其中,只有抄襲的,才可能叫人在閱讀時感受不到絲毫的不同,那麼發表在後的那個,就可能是抄襲之作,而發表在前的那個就應該屬於原創的。

語言結構方式的相似性多少,比如同樣寫一個傍晚時分一個男人碰到一個女人,其中場景的描寫、人物的描寫、人和人的對白臺詞等等,原創者每一個人都會不同,莫言寫這樣一個場景和兩個人,和王安憶寫這樣一個場景和人物,其所慣用的遣詞造句方式是不同的,我來寫這樣一個場景及其兩個人時,所有的遣詞造句方式也一定和莫言的王安憶的不同,很大不同,只要是一個寫作了很長時間,其語言組織方式必定已經有了自己的一個模式,所以金庸的和古龍的,有明顯的區別,即便是金庸和梁羽生的,同樣描寫一個大俠,其遣詞造句方式仍然可以清楚的分辨出來。所以,如果看到兩篇文章在遣詞造句、描寫方式上完全一樣,一般來說,那發表在前的應該就是原創,發表在後的當然就是抄襲之作。

在內容方面,如果是議論文,那麼觀點可以是一樣的,或者說差不多的,但是你論證這個觀點的方式、所提供的論據,原創者必定有其自己的純屬個人論證方式和新鮮論據,比如論證的角度、提出的論據先後秩序等,長期寫作議論文的人,應該也會形成自己的一個模式,比如看看我的悟空問答,你就會發現大多數我的長篇回答,其論證方式會和所有人不一樣,起碼會有很大不同,同時在使用論據的時候,也許論據內容大家都差不多,但是展示論據的順序、展示論據的語言方式,就必定會有別人的不同。

假設是敘事文,比如小說、故事之類的,那麼區別就會更明顯了,即便是兩篇一模一樣講上海二十多歲的一對男女戀愛故事,開篇方式就應該各有各的手法,劇情的構思也會有很大不同,然後情節推進、轉折也必定各有各的方式方法,包括人物的姓名、主要人物的親友構成、數量等等,相對來說,小說應該會比議論文更容易判斷原創——只要兩篇小說在故事情節、人物構成等方面相似度超過百分之三十以上,那基本上可以判斷後發表者屬於抄襲,相似度超過百分之五十,那就可以確定後發表者屬於抄襲了。

——悟空問答裡其實有不少人的回答是抄襲的,我經常會看到前面一個回答和後面一個回答相似度極高,去2019年時曾經想悟空問答“反饋”舉報過幾次,回覆大多數是沒有發現抄襲嫌疑,得了,少管閒事,有興趣還是寫我自己的,我的悟空問答你有興趣想抄,儘管去抄吧,祝你賺大錢。頭條號裡的文章,那些散文和詩詞,我認為你抄襲的話容易被人識破,我幾十年寫作至今,在語言結構、遣詞造句方面已經高度個人化,其他那些議論文類的作品,那就隨便啦,還是那句話,祝你好運,別叫人識破。


天淞子


首先非常感謝在這裡能為你解答這個問題,讓我帶領你們一起走進這個問題,現在讓我們一起探討一下。

1. 網站的權威度。   

網站在行業內的權威度,拿SOHU和一個普通的小網站來說。在同一個行業戶或者欄目中,如果同時發佈一篇文章或者先發布小站,在幾個小時或者1天后再在SOHU中發佈這篇文章,一般情況下SOHU獲得的排名就比普通小網站要高,因為SOHU的權威。其他諸如GOOGLE,百度等同樣。   

域名的註冊時間,一個域名的註冊時間越長,在百度和GOOGLE的權重就會越容易獲得很高,GOOGLE現在甚至只對註冊時間超過半年以上的網站給與較高的排名,另外GG的PR值一般情況下是3個月更新一次,一個全新的網站,在沒有很多外部鏈接的時候。也是不可能獲得很高的PR值的。而百度,則基本上認為是老域名就是原創的。     

3. 網頁第一次被收錄的時間。   

看一個文章是否原創,就看該網頁被收錄的時間,如果這篇文章在您的網站是4月1日好收錄的,而在其他網站是在幾十天甚至幾個月之後才收錄的,那麼就很明顯能判斷出您的網站才是原創的內容,因為其他站原本沒有這篇文章,搜索引擎無從收錄,其他站長在您的文章被收錄後才轉載,這時候很明顯他的網站的該頁面的收錄時間就會後於您的網站。   

4 網站的PR值。   

PR值是衡量一個網站在GOOGLE中的被重視程度,PR值的獲得很大程度上同外部鏈接有關係,如果您的一篇原創文章被大量的其他站長轉載,那麼您的網站就可能獲得很高的GOOGLE PR值,一般來說,原創文章的出處的網站,比其他轉載的網站該頁面的PR值要高很多。

在以上的分享關於這個問題的解答都是個人的意見與建議,我希望我分享的這個問題的解答能夠幫助到大家。

在這裡同時也希望大家能夠喜歡我的分享,大家如果有更好的關於這個問題的解答,還望分享評論出來共同討論這話題。

我最後在這裡,祝大家每天開開心心工作快快樂樂生活,健康生活每一天,家和萬事興,年年發大財,生意興隆,謝謝!




W軒視頻


1.1 採集氾濫化

來自百度的一項調查顯示,超過80%的新聞和資訊等都在被人工轉載或機器採集,從傳統媒體的報紙到娛樂網站花邊消息、從遊戲攻略到產品評測,甚至高校圖書館發的催還通知都有站點在做機器採集。可以說,優質原創內容是被包圍在採集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艱難又具有挑戰性的事情。

1.2 提高搜索用戶體驗

數字化降低了傳播成本,工具化降低了採集成本,機器採集行為混淆內容來源降低內容質量。採集過程中,出於無意或有意,導致採集網頁內容殘缺不全,格式錯亂或附加垃圾等問題層出不窮,這已經嚴重影響了搜索結果的質量和用戶體驗。搜索引擎重視原創的根本原因是為了提高用戶體驗,這裡講的原創為優質原創內容。

轉載和採集,分流了優質原創站點的流量,不再具屬原創作者的名稱,會直接影響到優質原創站長和作者的收益。長期看會影響原創者的積極性,不利於創新,不利於新的優質內容產生。鼓勵優質原創,鼓勵創新,給予原創站點和作者合理的流量,從而促進互聯網內容的繁榮,理應是搜索引擎的一個重要任務。 如何判斷文章是否原創?來感受一下百度的標準

當前,大量的網站批量採集原創內容後,用人工或機器的方法,篡改作者、發佈時間和來源等關鍵信息,冒充原創。此類冒充原創是需要搜索引擎識別出來予以適當調整的。

利用自動文章生成器等工具。


大愛部落


1.1 採集氾濫化

來自百度的一項調查顯示,超過80%的新聞和資訊等都在被人工轉載或機器採集,從傳統媒體的報紙到娛樂網站花邊消息、從遊戲攻略到產品評測,甚至高校圖書館發的催還通知都有站點在做機器採集。可以說,優質原創內容是被包圍在採集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艱難又具有挑戰性的事情。

1.2 提高搜索用戶體驗

數字化降低了傳播成本,工具化降低了採集成本,機器採集行為混淆內容來源降低內容質量。採集過程中,出於無意或有意,導致採集網頁內容殘缺不全,格式錯亂或附加垃圾等問題層出不窮,這已經嚴重影響了搜索結果的質量和用戶體驗。搜索引擎重視原創的根本原因是為了提高用戶體驗,這裡講的原創為優質原創內容。

轉載和採集,分流了優質原創站點的流量,不再具屬原創作者的名稱,會直接影響到優質原創站長和作者的收益。長期看會影響原創者的積極性,不利於創新,不利於新的優質內容產生。鼓勵優質原創,鼓勵創新,給予原創站點和作者合理的流量,從而促進互聯網內容的繁榮,理應是搜索引擎的一個重要任務。

當前,大量的網站批量採集原創內容後,用人工或機器的方法,篡改作者、發佈時間和來源等關鍵信息,冒充原創。此類冒充原創是需要搜索引擎識別出來予以適當調整的。

利用自動文章生成器等工具,“獨創”一篇文章,然後安一個吸引眼球的title,現在的成本也低得很,而且一定具有獨創性。然而,原創是要具有社會共識價值的,而不是胡亂製造一篇根本不通的垃圾就能算做有價值的優質原創內容。內容雖然獨特,但是不具社會共識價值,此類偽原創是搜索引擎需要重點識別出來並予以打擊的。

2.3 網頁差異化,結構化信息提取困難

不同的站點結構化差異比較大,html標籤的含義和分佈也不同,因此提取關鍵信息如標題、作者和時間的難易程度差別也比較大。做到既提得全,又提得準,還要最及時,在當前的中文互聯網規模下實屬不易,這部分將需要搜索引擎與站長配合好才會更順暢的運行,站長們如果用更清晰的結構告知搜索引擎網頁的佈局,將使搜索引擎高效地提取原創相關的信息。

面對挑戰,為了提高搜索引擎用戶體驗、為了使優質原創者原創網站得到應有的收益、為了推動中文互聯網的前進,我們抽調大量人員組成原創項目組:技術、產品、運營、法務等等,這不是臨時組織不是1個月2個月的項目,我們做好了打持久戰的準備。

互聯網動輒上百億、上千億的網頁,從中挖掘原創內容,可以說是大海撈針,千頭萬緒。我們的原創識別系統,在百度大數據的雲計算平臺上開展,能夠快速實現對全部中文互聯網網頁的重複聚合和鏈接指向關係分析。

首先,通過內容相似程度來聚合採集和原創,將相似網頁聚合在一起作為原創識別的候選集合;

其次,對原創候選集合,通過作者、發佈時間、鏈接指向、用戶評論、作者和站點的歷史原創情況、轉發軌跡等上百種因素來識別判斷出原創網頁;

最後,通過價值分析系統判斷該原創內容的價值高低進而適當的指導最終排序。

目前,通過我們的實驗以及真實線上數據,“起源”算法已經取得了一定的進展,在新聞、資訊等領域解決了絕大部分問題。當然,其他領域還有更多的原創問題等待“起源”去解決,我們堅定的走著。

我們一直致力於原創內容的識別和排序算法調整,但在當前互聯網環境下,快速識別原創解決原創問題確實面臨著很大的挑戰,計算數據規模龐大,面對的採集方式層出不窮,不同站點的建站方式和模版差異巨大,內容提取複雜等等問題。這些因素都會影響原創算法識別,甚至導致判斷出錯。這時候就需要百度和站長共同努力來維護互聯網的生態環境,站長推薦原創內容,搜索引擎通過一定的判斷後優待原創內容,共同推進生態的改善,鼓勵原創,這就是“原創星火計劃”,旨在快速解決當前面臨的嚴重問題。另外,站長對原創內容的推薦,將應用於“起源”算法,進而幫助百度發現算法的不足,不斷改進,用更加智能的識別算法自動識別原創內容。

目前,原創星火計劃也取得了初步的效果,一期對部分重點原創新聞站點的原創內容在百度搜索結果中給予了原創標記、作者展示等等,並且在排序及流量上也取得了合理的提升。

最後,原創是生態問題,需要長期的改善,我們將持續投入,與站長攜手推動互聯網生態的進步;原創是環境問題,需要大家來共同維護,站長們多做原創,多推薦原創,百度將持續努力改進排序算法,鼓勵原創內容,為原創作者、原創站點提供合理的排序和流量。


宇宙男子


主要從以下幾個方面去考慮文章是原創還是抄襲。

1、觀點抄襲:不引用別人的文獻好像觀點是自己的為嚴重抄襲;

2、句子抄襲:不重新組織別人的觀點,照抄原話,不加引號,即使加了參考文獻也是抄襲;

3、過多引用別人原話:即使加了引號,也算抄襲,比如三句以上;

4、句子重新組織,但是整個段落和別人的非常相似;

尤其關鍵動詞幾乎一樣,句子結構也一樣,也算抄襲;

5、圖原樣copy別人;

6、除了整段拷貝,以下處理後仍然屬於剽竊;

(1)剷除其中幾句;

(2)把句子順序顛倒;

(3)增加幾句;

(4)只改變一些動詞和少量的詞,但是整體結構一樣。

擴展資料:

著作權法所稱抄襲、剽竊,是同一概念(為簡略起見,以下統稱抄襲),指將他人作品或者作品的片段竊為己有。

抄襲侵權與其他侵權行為一樣,需具備四個要件:

第一,行為具有違法性;

第二,有損害的客觀事實存在;

第三,和損害事實有因果關係;

第四,行為人有過錯。

由於抄襲物需發表才產生侵權後果,即有損害的客觀事實,所以通常在認定抄襲時都指經發表的抄襲物。因此,更準確的說法應是,抄襲指將他人作品或者作品的片段竊為己有發表。

著作權侵權同其他民事權利一樣,需具備四個要件,其中,行為人的過錯包括故意和過失。這一原則也同樣適用於對抄襲侵權的認定,而不論主觀上是否有將他人之作當做自己之作的故意。

對抄襲的認定,也不以是否使用他人作品的全部還是部分、是否得到外界的好評、是否構成抄襲物的主要或者實質部分為轉移。凡構成上述要件的,均應認為屬於抄襲。



劍雪封侯君


【人魚薇沫】機器都判斷不出真正的原創,因為只要做得高明,可以逃過機器的法眼,找出原主題進行簡單修改,關鍵詞不重疊,更改主謂賓的位置,或是替換其中主句子的意思就可以做到,但有些原創是無法複製的,任你再高明也抄襲不了。

至於如何保持這樣的原創要做到以下幾點。

1.獨特的語言

幽默風格或是文詞優美,長短句協調,精緻的修辭,這些是經過作者反覆多年錘鍊獲得的專屬技能,每一個作者都有自已的獨特風格。

我初寫作的時候,老師說找到你自已的語言風格,我的風格其實是精簡加華麗,偶爾閃現的珍珠擬的比喻,只有在寫古風長篇小說中會出現。

那個風格是我兒時開始接觸古風文字,成長後接觸古風文化所帶出來的,我也會寫古韻的詩詞,那種節奏感就是別人無法模仿的。


再加上我糅合了張愛玲和李碧華的獨特語言和語境,這個風格我會持續下去。

所以想要原創,就要找到符合自已的風格。

最重要的是找到自已喜歡什麼,擅長什麼,然後從藝術中萃取營養,形成自已的氣質、氣場,平時說話時候也要培養,做到心與意統一和諧,最後寫文章時才能兼顧文章結構和風格。

六神磊磊和刀小刀這方面就得地十分傑出,大家可以參考一下。


2.深度的思想


多閱讀,多思考,把閱讀產生的思想與大腦中的思想經過化學反應後,形成自已的獨特見解。

我們看事情都有自已的一套準則,在正確的三觀之上,發出屬於自已的言論,這個言論要保持獨特,與眾不同。

比如:桌子、李月亮等知名媒體人,他們的每一篇文章都字字如金,思想完全凌駕於眾媒體人之上,所以才能做頂級。


這種思想不是一天兩天就能句形成的,需要長時間磨練,思考。

一些新聞作者思想更加深厚,像白巖松、水均益。

想做到這些,必要先清醒的認識自已,看到或聽到新的觀點能保持自我,能夠判斷是非。


3.獨特的邏輯架構

想要把一篇文章寫的新奇,吸引人眼球,普通的故事寫出石破驚天的感覺,是需要經過嚴格設計的。


開篇的幾十個字,中間的文章脈絡,結尾的發人深思,都需要經過深思熟慮。

大家看有些文章標題吸引人,忍不住點進去,開篇也讓人看得下去,再往下不知不覺就全看完了,看完後文章內容還記得十分清楚,到最後結尾的地方情感又有昇華。

看的時候完全沒有我所說的這些痕跡,只是覺得文字寫得真好,深入人心。

但如果你有心,仔細地逐句去分析,就能看出我所寫的這些結構了。

文章的最高境界就是自然、真實,了無設計感,但其實都是精心設計的。


以上的這些理論我都很懂,因為正在學習過程中,但是要做起來就十分有難度了,我光是設計一個小說的大綱與人物傳記,已經搞了一週了。

拿給老師看,總是被推翻,正在不停地修改。

為何要用這麼長的時間設計呢?因為之前寫過好幾個十萬二十萬就棄坑的半路文章,如果結構不穩,肯定堅持不到最後。


人魚薇沫談成長


這個很難判斷的,從一下幾點可以判斷,不過很麻煩。

到目前為止,本人認為搜索引擎判斷文章是否原創的標準已經運用的有以下幾點:文章收錄時間、網站上的鏈接、網站的權重。文章收錄時間:你的文章是十年前就收錄了,我的一篇一模一樣的文章十年後才收錄,當然你的文章是原創的了。但是如果收錄時間距離較短的話就難以判斷了,因為權重高的博客收錄更快,我的文章五天前就發表了結果一直不收錄,結果你轉載了我的文章幾分鐘後就收錄了,如果搜索引擎認為你的文章是原創的而我的是抄襲的,那我豈不是太冤了嗎?網站上的鏈接:這個應該是判斷原創標準最主要的一點了吧。如果你的文章結尾有一句:文章轉載於某某SEO博客,或者網站中某些關鍵詞上有鏈向該關鍵詞的鏈接,那麼判斷你的文章是轉載該博客的應該會比較準的。因為如果你鏈向了該文章的頁面判斷還是比較準的,如果鏈向該站域名的話判斷還是很難的。總不能你文章鏈向了他的博客結果他轉載你的文章都被搜索引擎認為是原創吧?網站的權重:這個做SEO的人應該更能理解一點。搜索引擎認為一個高權重、高PR的博客文章原創的可能性更大一些。其實還有一個標準可以判斷文章是否原創,即查看網頁的創建時間。例如你的文章是頁面是去年創建的,我的是今年才創建的,並且文章內容一模一樣,那麼十有八九我是轉載你的。如果還不能理解的話,就想想一下我們常用的 Word、Excel吧,是不是經常看到他們的最後修改時間呢?我們還經常用修改時間進行排列呢。相信這個記錄修改時間的技術對百度和谷歌來說絕對不是問題,這個技術性問題應該隨便一個程序員都可以解決的吧?不知道現在百度和谷歌有沒有利用這種技術。當然這個技術也是有缺陷的,就是如果我的文章是原創的那麼我可能會經常改動,那麼我的文章的最後一次修改時間可能要比轉載我的文章要晚,這個搜索引擎可以記錄同一文章的所有修改時間來解決,這個技術上也很容易實現。但是這又遇到了兩個問題:第一、這意味著多大的工作量?百度、谷歌索引的可不是一臺電腦上的東西,也不是一個網站的東西,而是數千億的頁面,記錄每次頁面的修改時間不知道在工作量和搜索引擎服務器反應能力上意味著怎樣的壓力;另一方面即使判斷出那個頁面時最先創建的了,但是如果站長把最先創建的頁面原內容刪除替換成轉載別人的文章,這又該咋判斷啊?寫了這麼多,大家可看到了每種判斷方式各有優缺點 ,搜索引擎應該也特別希望能做出正確的判斷,不過先不說技術問題,光是判斷標準就夠令人抓狂的了。


紫色的小白菜


判斷文章的原創度是通過搜索引擎把抓取到的我們發佈的文章與它數據庫內原有的文章做比較,如果重複度不超過它規定的一個百分比就可以判斷為原創,反之則判定為非原創,不予收錄。長期抄襲的作品,長時間平臺也會判定其違規,新來的朋友要注意了。

所以我們在寫文章的時候,要儘量避免與網上原有的文章大篇幅重複,可藉助一些編輯器的原創檢測功能,3秒全網比對出檢測結果,重複部分會有標識,可一邊修改一邊檢測直到文章的原創度達到一個百分比,用這種做法基本可以查重機制。本文為原創地址河北2020.3.3



小銀河說生活


一個有修養的創作者,絕不會全盤抄襲別人的文章的。當然,鑑用名言名句做為突出文章的開頭或結尾都是可以的。在創作的過程中,有些文章甚至會引用整段的論據進行佐證。但文字不能超過整篇文章的字數標準。

抄襲文章的行為是可恥的。根本就不允許產生這種行為,文化人若這一點都做不到,那麼就不必要進行創作,直接剽竊作品就好了!

抄襲作品和偷和搶沒有區別。

文人當自重!


冷暖瀟逸


1文章的完整的度,一般原創的文章呢,是有頭有尾的!看多了就會發現

2文章的內容,原創文章裡面的內容比較有意思有含義。

3文章的語句是否通順,語句通順,一般來說都會是原創的,有的人,喜歡東拼西湊,這類來說,一般就不會是原創

4文章的意思,從文章的意思來看,是否有很多沒必要的,多餘的語句,這類一般是翻譯的人家的語句,一般不會是原創

5如果有條件的話呢,建議是用文章檢測工具,檢測文章是否重複讀高,這樣會更容易檢測是不是原創!

麻煩給個優質吧!回答了好多問題了!都是在用心回答的啊!!


分享到:


相關文章: