<track id="vz5pd"></track>

        <em id="vz5pd"></em><em id="vz5pd"></em>

              <font id="vz5pd"><progress id="vz5pd"></progress></font><span id="vz5pd"><thead id="vz5pd"><sub id="vz5pd"></sub></thead></span>

                  您的位置:首頁 > 科研經驗 > Crosscheck查重原理及算法
                  科研經驗

                  Crosscheck查重原理及算法

                  作者:admin 來源:未知 日期:2020-06-27 21:57:41 人氣: 標簽:
                  導讀:crosscheck(CrossCheckiThenticate)這個查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過3…
                  crosscheck(CrossCheck iThenticate)這個查重軟件,各大雜志社都在使用,很多情況下編輯會根據軟件的查重結果對論文進行判斷。一般來說,論文的總體相似率超過30%,編輯就會要求修改或者可能直接拒稿。后果還是很嚴重的。那crosscheck到底是如何進行判定的呢?
                  網上很多關于這些規則的說法,大部分是說連續六個單詞即判定重復,或者根據語言風格相似即判定重復。這些說法不夠準確,也沒有依據。
                  一篇被crosscheck處理的文章,這個軟件第一步應該做的是進行文本的格式化。說來也很合理。因為一篇文章中,除了單詞以外,還有大量的符號(標點符號,數學符號及特殊符號等)。這些并不是crosscheck查重的對象,所以會把他們處理掉。這些符號會通通被替換為空格。
                  其實,crosscheck查重的基本規則只有一條:不連續的六個單詞中間連續不重復的單詞小于四個(不包括四個)即判定這六個單詞重復(注意:這里的規則是軟件系統默認的規則,大部分期刊使用默認規則)。

                  所有的查重結果都是基于這條進行的。這句話比較繞口。具體怎么理解,我們來看下具體的實例。

                  先分析最極端也是最直白的重復。不連續的六個單詞中間不重復的單詞為0個,即六個連續重復的單詞。顯然這個肯定是會被判定重復了。下面我用1表示重復的單詞,0表示不重復的單詞。那么這種情況就是:111111。

                  再分析中間有不重復單詞的情況。這點大家很多情況摸不著頭腦,有時候幾個單詞距離的很遠,也被判定重復了,很是苦惱。

                  1)中間只有一個不重復的。例如:1011111;1101111;1111011等。
                  實例:Computer science has been widely considered as ...(斜體表示和已有文獻重復)
                  這里面單純插入一個widely單詞,是不足以騙過系統的。

                  2)中間有兩個重復的。例如:1100110011;110010011001;1100110011等。
                  實例1:Computer science has been widely percieved asan...
                  這里替換兩個不重復單詞widely percieved,但是Computer, science, has, been, as, an已經是六個不連續的重復了。
                  實例2:Computer science and technology has been widely percieved as an...
                  在Computer science后面加上兩個不重復的單詞and technology是不是就可以了呢?答案是否定的,Computer, science, has, been, as, an這六個詞中間只有兩個是不重復的,不能判定為整句不重復。

                  3)中間有三個不重復的。這個一眼乍看不覺得重復,但其實是重復了。例如:100010001111;100010001000100010001等。
                  100010001000100010001這種情況是不是很刺激。對!按照規則,這個也算重復。因為六個不連續重復的單詞直接是三個重復的。
                  實例1:Computer science, resulting from America, has been widely percieved as an...
                  這種形式是11000110011模式,依舊是重復的。
                  實例2:Computer science, resulting from America, has been widely percieved as one of most promising....
                  好,我們把改成one of most。雖然這三個沒有重復,但緊接著后面的promising和已有文獻重復了,很不幸,整個句子還是重復了。重復形式為11000110010001。

                  上面分析的是單純的單詞,不涉及符號和數字。大家的論文很多情況包含各種單位符合和數學符號的,系統該如何處理他們?
                  1)單純的數字。比如123,25,1998等這些整數,他們都是連續的,中間沒有空格和特殊符號,系統不會進行處理,還會保持原來形式。算一個單詞。
                  實例1:Computer science, developed from 1930, has been widely percieved as an..
                  這句話是11000110011的重復,這里的1930算一個單詞。
                  對于小數要特別注意,因為小數點系統處理后會被空格代替,所以小數是會被看作兩個單詞的。如1.23,在系統里面會看作1和23兩個單詞。
                  實例2:Computer science, developed from 1,930, has been widely percieved as an.. 還是這句話,這里的1,930多加個了分隔符,就變成兩個單詞。所以句子中間就有四個連續不重復的單詞,整個句子就是不重復的(即developed, from, 1和930四個)。

                  2)連接符。不少單詞或者專業詞匯會用連接符號連起來,系統會自動把連接符號替換成空格。所以被看作兩個單詞。如:ever-increasing算作ever和increasing;CD-ROM算作CD和ROM。

                  3)科學單位。文章中難免會有g cm-3這個的有上標或者下標的單位。軟件系統其實不會識別上下標。直接按照正常大小處理,再替換特殊符號為空格,所以g cm-3算三個單詞。

                  4)包括符號的專有名詞縮寫。比如化學中Ag包覆Au再包覆一層C。作者可能會縮寫成Ag@Au/C。這個經過系統處理后,其實是三個單詞的Ag,Au和C。所以有時候會發現系統把這類詞分開匹配查重。
                  實例:The synthesized Ag@Au/Cnanoparticles exhibited good activities.
                  可能會遇到這種重復,這里Ag@Au/C 算作三個單詞,所以是101011101重復類型。

                  5)跨段落重復。有時候系統的重復可能不在于特定的一段,還會跨段落,因為在軟件眼里,整個文章就是一連串單詞被空格分割,不存在段落之分。
                  實例:
                  4. Experimental and methods
                  4.1. Synthesis of ...
                  這個是典型的文章中方法部分。這里猜猜系統判定重復的元素是幾個?嗯,8個。去掉點號,就是4, Experimental, and, methods, 4, 1, Synthesis, of 這8個單詞。

                  6)總結起來,系統處理的特殊符號包括:標點符號;數學符號;特殊符號等一切非數字的符號。
                  以上就是crosscheck查重的基本規則;灸依舜蠹矣龅降那闆r。了解了這些規則,修改起來就方便了。再舉幾個例子。

                  Computer science, resulting from America, has been widely percieved as one of most promising....
                  這句話是11000110010001重復,最簡單的修改就是把不重復的單詞提高到4個不連續。比如修改成110000110010001就不會被系統判斷重復了。
                  修改為:Computer science, which results from America, has been widely percieved as one of most promising....
                  這種是沒有問題的。
                  單復數改變。從系統原理可知,單復數是不同的單詞,故可以達到避免重復的目的。
                  The Au nanoparticleexhibited good catalytical activities and ...
                  這里是10110111重復,剛好六個,那我們把nanoparticle變為復數nanoparticles變成五個了,不算重復。不過要注意的是修改之后,自己再想想會不會還和別人有重合,畢竟crosscheck系統的對比樣本實在是太豐富了。
                  同義詞替換。這一招依舊是非常有效的方法。但是不能單純的使用,一定要結合整個句子來。
                  句子單詞顛倒。不錯的辦法。還是那句話,注意句子的整體結構。
                  午夜精品久久久久久久

                    <track id="vz5pd"></track>

                        <em id="vz5pd"></em><em id="vz5pd"></em>

                              <font id="vz5pd"><progress id="vz5pd"></progress></font><span id="vz5pd"><thead id="vz5pd"><sub id="vz5pd"></sub></thead></span>