如何快速提取一篇文章中的重複句段

2019-02-16 20:34:28 簡言

昨天我收到一位北語高翻畢業生的來信，詢問有關SDL Trados Studio 2017中提取並翻譯重複句段的問題，這讓我萌生了做一個簡單的提取重複句段工具的念頭，實踐之後發現一點都不難。我簡單說一下方法，然後大家就可以自己前往下面的網站去在線體驗了：

提取TMX文件中的重複句段：

http://translation.education/tmxfilter/

提取一篇中文文檔中的重複句段：

http://translation.education/sentencefilter/

提取一篇中文文檔中的重複中文字句：

http://translation.education/senfilter/

正文

以下是使用代碼獲取重複句段的方法：

第一步：獲取待譯文本中的句子

以中文為例，我寫了一段簡單的文本，如下：

如何快速提取一篇文章中的重复句段

這段文本實際上就是幾個簡單句子的重複。

第二步：將上述文本轉換為tmx格式文件

我使用SDL Trados Studio 2017將上述文本轉換為一個tmx格式翻譯記憶庫文件，方便演示其原理，在我最後給大家展示的在線網站中大家直接粘貼原文到網站中即可操作，不必像我這樣弄得這麼麻煩。

我將上述文本轉換為一個.tmx格式的文件後，開始撰寫代碼。

第三步：使用PHP提取重複內容

如何快速提取一篇文章中的重复句段

全部代碼就是上面這樣，實際上只用了11行代碼，而且還可以進一步簡化。每一行代碼的功能我就不解釋了，我就說一下我用到的一個核心函數：array_count_values

w3school是這樣介紹這個函數的：

如何快速提取一篇文章中的重复句段

也就是說，我們將待譯原文的每一個句子放到一個數組中，然後用這個函數對每一句話進行統計，看看它在這個數組中出現了多少次，然後把次數和句子放到一個新的數組中。我們只要把這個新的數組的內容展示出來就知道每個句子出現多少次了。

上述代碼在demo.tmx文件上運行後的效果如下圖：

如何快速提取一篇文章中的重复句段

以上就是使用PHP提取重複句段的方法，實際上非常非常簡單，我改進了一下上面這段代碼，加上了上傳文件的功能，所以大家可以在下面的網址中嘗試抽取一個tmx文件中原文中的重複句段：

http://translation.education/tmxfilter

以上就是從一個翻譯記憶庫格式的文件中提取重複句段的方法。但是許多朋友不想使用tmx文件，只想在線粘貼，所以我又做了下面這個工具：

http://translation.education/sentencefilter/

如何快速提取一篇文章中的重复句段

即把一整篇文章粘貼進去後會看到重複句段的統計結果。

除此以外，我還做一個小句的統計結果，也就是把一個長句按標點符號分割成若干小句，看看哪些小句出現的次數最多：

http://translation.education/senfilter/

大家自己可以在電腦上試一下上面三個網站，看看效果。點擊“閱讀原文”可以體驗第二個網站的功能。

我會根據大家的反饋，看看還能增添什麼新功能進去，大家有問題可以在下方留言。

小結

統計重複句段是個很有意思的話題，除了統計完全一樣的句段外，更有價值的是研究如何統計重複的相似句段，我還在這方面努力中，有成果後再和大家分享。

祝大家春節快樂！

分享到:

閱讀更多簡言的文章

關鍵字: 提取 PHP 北語

相關文章:

要對高校教育質量負責！網絡答辯不是降低標準的理由

論文答辯，是高校畢業生完成教育過程的重要一環。疫情期間，為了保證學生順利畢業，多所高校已開展或即將開展博士、碩士、學士等多層次的畢業論文網絡答辯。

最新！滬2020年普通高等學校招生志願填報與投檔錄取實施辦法公佈

最新！滬2020年普通高等學校招生志願填報與投檔錄取實施辦法公佈

根據《國務院關於深化考試招生制度改革的實施意見》、《上海市深化高等學校考試招生綜合改革實施方案》及教育部辦公廳關於印發《普通高校本科招生專業選考科目要求指引》的通知等相關規定，為進一步促進每一個學生的終身發展，科學選拔和培養人才，維護招生秩序，確保招生公平，制定本實施辦法。

山東高校開學定了！研究生和畢業年級學生自5月16日起開學返校

經省委新冠肺炎疫情處置工作領導小組研究同意，開學條件核驗合格的高等學校，其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

陝西省：將公佈有招生資質中職學校名錄

昨日記者獲悉，省教育廳和省人社廳就做好今年全省中職學校招生有關事項發出通知。據悉，陝西省兩部門要求，各市要堅持職普比不低於4:6底線要求，編制高中階段學校招生計劃，5月11日前將今年高中階段教育學校招生計劃表報省教育廳備案，省政府教育督導委員會將對職普比進行督導檢查。

天津：初高中及小學高年級5月18日復課開學，小學低年級段、幼兒園等暫不開學

據天津市新型冠狀病毒感染的肺炎疫情防控工作指揮部，根據天津市新冠肺炎疫情防控工作情況，市防控指揮部決定，天津市2020年春季學期第三批學生復課開學安排如下:5月18日，全市高一、高二、初一、初二及小學四、五、六年級同步復課開學。

臨沂教育培訓機構將重新洗牌，招生大戰一觸即發

臨沂教育培訓機構將重新洗牌，招生大戰一觸即發

一場突如其來的疫情，讓教培市場迎來了2020年一次重新洗牌的機會。近日，記者調查發現，部分中小型教培機構為了規避疫情帶來的影響

小學低年級必須掌握的量詞大全，附識記順口溜，建議家長收藏

小學低年級必須掌握的量詞大全，附識記順口溜，建議家長收藏

量詞是小學語文必會的基礎知識，也是低年級考試中經常出現的考題但是孩子們學習起來並不容易，一是因為漢語包含的量詞很多，二是有的量詞使用並不唯一。下面是給低年級孩子整理了一份量詞大全及識記他們的順口溜，一起來看吧！

山東高校開學時間確定

經山東省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

鶴壁看鄭州，夏初長你歸來廣電南路16號迎來大團圓

鶴壁看鄭州，夏初長你歸來廣電南路16號迎來大團圓

春日漸遠，夏日初長。我和你，揮手作別於一月，重逢於五月，三個多月的小別離，那份假期不斷被充值的小興奮，不知何時變成了期待歸來的想念。廣電南路16號，鄭州市第四十七初級中學在想你們，想見到你們。

山東高校開學時間確定

經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

豔陽高照五月天逐夢前行正當時

猛獁新聞·東方今報記者

唐山檢查初三年級開學準備工作

5月6日，副市長曹全民在市教育局、市衛健委相關負責同志的陪同下，到我市部分初中檢查初三年級開學準備工作。

高三學生迎來複課後首次線下“大考”

高三學生迎來複課後首次線下“大考”

6日，朝陽區4000多名高三學生迎來了新高考“一模”考試，這也是高三複課以來首次線下“大考“。“都是在行政班裡考試，每個學生考試的地點是不變的，這就防止了學生之間的這種交叉，當A學生考這科的時候，B學生沒有，那麼他有一個專門自己的獨立的一個自習室進行自習，或者說下午半天沒有考試的

山東高校要開學了

經省委新冠肺炎疫情處置工作領導小組研究同意，開學條件核驗合格的高等學校，其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

重磅！山東高校開學時間確定

大小新聞客戶端5月7日訊（YMG全媒體記者

莒縣第三中學召開2020年春季復學準備暨教學銜接工作會議

莒縣第三中學召開2020年春季復學準備暨教學銜接工作會議

為確保廣大師生身體健康和生命安全，保證學校2020年春季開學順利復課，2020年5月5日，莒縣第三中學召開了2020年春季復學準備暨教學銜接工作會議。學校黨總支書記、校長焦廣良帶領全校教師學習相關文件及會議精神，並提出了復課復學的具體工作要求。

山東高校開學時間確定 5月16日起開學返校

半島網5月7日訊今天，山東省教育廳公佈山東高校開學時間，經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等

山西忻州市第十一中學教師招聘7人啟事

忻州市第十一中學教師招聘啟事　　一、學校簡介　　忻州市第十一中學位於忻州市和平西街，是一所市直公立寄宿制初級中學。

山東高校開學時間確定

經省委新冠肺炎疫情處置工作領導小組（指揮部）研究同意，開學條件核驗合格的高等學校（含駐魯部屬高校），其研究生和畢業年級學生自5月16日起開學返校，具體時間由駐地市會同高校統籌返校學生人數、生源地分佈、城市交通運輸和防控能力等情況，按照錯時錯峰原則研究確定。

濟寧這6名學生入選國家級獎學金名單

濟寧這6名學生入選國家級獎學金名單

根據《教育部辦公廳關於第十四屆宋慶齡獎學金評選工作的通知（教基廳函〔2019〕43號）》要求，在省級教育部門評審推薦，宋慶齡獎學金評審委員會認真審核的基礎上，教育部今天對擬認定的第十四屆宋慶齡獎學金獲獎候選人和優秀組織獎獲獎候選名單予以公示。

廈門復學後體育課怎麼上？保持安全距離可不戴口罩

廈門復學後體育課怎麼上？保持安全距離可不戴口罩

復學後，體育課怎麼上？市教育局昨日出臺工作指南，並且明確:上體育課如果能保持安全距離，可以不戴口罩。

柳州小學1-6年級開學時間公佈！校外培訓機構、午託恢復時間也定了→

柳州小學1-6年級開學時間公佈！校外培訓機構、午託恢復時間也定了→

5月6日，柳州市教育系統新型冠狀病毒感染的肺炎疫情防控工作領導小組發佈《關於做好2020年春季學期全市小學開學工作的通知》，明確5月11日（星期一）小學1-6年級開學。

@大學生，我市多所高校公佈返校復課時間，你們準備好了嗎？

@大學生，我市多所高校公佈返校復課時間，你們準備好了嗎？

上游新聞·重慶晚報慢新聞記者

教育部：努力開發適合畢業生的科研助理崗位

來源：科技日報6日，由教育部、人力資源和社會保障部、工業和信息化部、國資委、中央廣播電視總檯、共青團中央等6部門共同主辦的2020屆普通高校畢業生就業“百日衝刺”行動正式啟動。啟動儀式上發佈了促進高校畢業生就業創業十大專項行動。

轉起周知！天津初高中非畢業班18日開學

轉起周知！天津初高中非畢業班18日開學

15月18日，天津全市高一、高二、初一、初二及小學四、五、六年級同步復課開學。25月15日以後，天津各高等院校、中等職業學校非畢業年級由學校根據自身實際情況，自主確定學生返校時間。

秦皇島昌黎縣高端汲養助力教師專業發展

按照昌黎縣教育和體育局工作安排，4月29日，昌黎縣教師發展中心組織全縣中小學教師集體參與了由中國教育學會主辦，北京市海淀區教師進修學校承辦的“在線與在校——面向未來的混合式教學與教研”雲端研討會。

強基計劃：華中科技大學今年首招計劃不超過120人

記者今日從華中科技大學獲悉，該校發佈了《華中科技大學2020年強基計劃招生簡章》，正式啟動2020年基礎學科招生改革試點工作。

哈佛出現財政赤字！美國最“燒錢”的研究生院終於曝光

哈佛出現財政赤字！美國最“燒錢”的研究生院終於曝光

近段時間，美國大學紛紛出臺新的招生政策，例如接受申請者不提交標化成績、延長申請日期、降低最低分數線等等。

湖北3地確定初三開學和中考時間

為統籌推進疫情防控和經濟社會發展工作，安全有序恢復教育教學秩序，經市新冠肺炎疫情防控指揮部綜合研判、審慎研究決定，現就我市2020年中考時間和初中三年級春季學期開學時間安排通告如下:

百日衝刺促就業萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

百日衝刺促就業萬千學子創未來 2020屆普通高校畢業生就業“百日衝刺”行動啟動

作為2020屆普通高校畢業生就業“百日衝刺”行動的重要平臺，由中央廣播電視總檯與教育部共同發起，總檯央視頻攜手國投人力主辦的“24365國聘行動”聯合專場招聘活動，5月6日正式上線啟動。

市體育中學高三年級復學

黃岡新聞網訊（通訊員王雅蘭）5月6日，市體育中學高三年級復學第一天。市體育事業發展中心主任餘覓、副主任王立新到學校檢查疫情防控工作。當天上午，全體學生有序排隊進行核酸檢測，城區學生由家長帶回家自我隔離，非城區學生統一安排入住賓館，等待核酸檢測結果出來後統一返校。

考研雲複試準備好了嗎青島多所高校公佈分數線

原標題：考研“雲複試”你準備好了嗎島城多所高校公佈複試基本分數線及相關操作要求近日，海大、中石大、青大等駐青高校陸續公佈了碩士招生複試基本分數線及相關要求。網絡遠程複試成為高校研究生複試的主要方式。各高校也都根據自身專業需要，對考生複試安排做了要求。

宿松縣五里中小召開4—6年級線上線下教學銜接交流會

經過漫長的近兩個月的線上教學，4月26日至4月30日，4—6年級度過了為期一週的線下教學。4月30日下午4點，五里中小召開了4—6年級的線上線下銜接交流會。

退完住宿費，陝西這所#高校掏400萬為師生做核酸檢測#

繼給2萬餘名學生退還3個月住宿費（總額1700萬）後，5月6日，陝西西安翻譯學院在學生正式開始返校後，又掏400萬元為2萬師生免費測核酸。該校5月5日給教職員工和後勤三產人員進行了檢測，從6日起一直持續到12日，每天都會對返校學生進行檢測。

中國各地高考難度地圖：今年上大學最難的省份是哪裡？

中國各地高考難度地圖：今年上大學最難的省份是哪裡？

現在參加高考的人是2000年左右出生的，每年全國出生人口大約1900萬，其中，全國參加高考的人大約是920萬人，本科錄取人數約309萬人，也就是說，不管你被什麼本科錄取了，就算是最普通的三本，也已經是6選1的突出人才。

研究馬克思主義要有立場有能力

“馬院姓馬，在馬言馬”的鮮明導向和辦學原則，既是基本標準、根本原則，又是高標準、高要求;在馬克思主義學院工作，由於環境使然，講立場很容易，不容易的是有真正的立場，有能力捍衛立場。

應屆畢業生注意，今年應聘教師、護士等崗位，可以先上崗再考證

應屆畢業生注意，今年應聘教師、護士等崗位，可以先上崗再考證

日前，國家人社部、教育部等七部委下發通知表示:經國務院同意，對《國家職業資格目錄》中部分職業資格實施“先上崗、再考證”階段性措施，用人單位在2020年12月31日前招聘高校畢業生，不得將取得教師資格、護士職業資格等作為限制性條件。

走在前列！益陽赫山區滄水鋪鎮啟動“5G+智慧教育”試點建設

滄水鋪鎮位於湖南省益陽市東南部，是“湖南省百強鎮”，是益陽市的工業重鎮、益陽市東接東進戰略的“橋頭堡”。益陽市率先在赫山區滄水鋪開展“5G+智慧小鎮”建設，並爭取打造成為全國首個5G小鎮。

初三開學在即，聽聽莒縣桑園鎮第二中學校長的深情寄語

初三開學在即，聽聽莒縣桑園鎮第二中學校長的深情寄語

桑園鎮第二中學校長

初三開學在即，聽聽莒縣桑園鎮中心初中校長的深情寄語

初三開學在即，聽聽莒縣桑園鎮中心初中校長的深情寄語

桑園鎮中心初中校長

蘭山對29所初中學校開學條件進行核驗整改完畢

琅琊新聞網5月6日訊（臨報融媒記者

初三開學在即，聽聽莒縣嶠山鎮中心初中校長的深情寄語

初三開學在即，聽聽莒縣嶠山鎮中心初中校長的深情寄語

嶠山鎮中心初中校長

中國人民警察大學 2020年碩士研究生招生複試錄取辦法

中國人民警察大學 2020年碩士研究生招生複試錄取辦法

為加強對碩士研究生招生工作的管理，確保我校2020年研究生招生複試錄取工作規範有序安全進行，根據教育部、公安部、河北省有關文件規定，結合新冠疫情期間各項防控要求，依據《中國人民警察大學2020年碩士研究生招生複試錄取工作方案》，制定本辦法。

藁城這所小學，積極開展爭做新時代好少年活動

藁城這所小學，積極開展爭做新時代好少年活動

鑑於目前疫情還沒有徹底結束，在“五一”國際勞動節來臨之際，昌盛街小學在校長武保華的倡導下，在線上組織各班以“家務勞動我能行，親力親為勇當先”為主題的實踐教育活動，培養孩子們愛勞動意識，並懂得珍惜勞動人民的勞動成果。

剛剛，湖北一地公佈初三開學和中考時間安排

剛剛，湖北一地公佈初三開學和中考時間安排

襄陽市新型冠狀病毒感染肺炎疫情防控指揮部關於2020年春季初三年級學生開學時間及中考安排的通告(第16號)為安全有序恢復我市教育教學秩序，經市疫情防控指揮部同意，現就全市2020年春季初三年級學生開學時間及中考安排通告如下：一、初三年級開學時間安排全市初三年級學生2020年5月1

現場實拍！羅山初中、小學開學第一天

現場實拍！羅山初中、小學開學第一天

羅山的初一二學生和小學四五六年級學生們終於結束了“超長待機”的寒假迎來了開學開學可能會遲到但是永遠不會缺席接下來跟隨小編直擊羅山今日開學現場！

南京小學五、六年級學生返校復學第一課：加強疫情防護安全教育

南京小學五、六年級學生返校復學第一課：加強疫情防護安全教育

5月6日，南京市小學五、六年級，五年制高職四、五年級，三年制中職三年級學生返校復學。當天，南京市雨花臺區文明辦開展“童心戰‘疫’啟程未來”主題教育活動，引導中小學生以積極的主人翁姿態踐行文明衛生生活、關注關心社會，讓疫情危機成為學生認識社會、堅強成長的人生經歷。

堅守最美麗勞動最光榮昌樂縣教育工作者：愛崗敬業無私奉獻

這個五一假期，有這樣一群人，他們放棄休假，堅守崗位，奮鬥不息，在不同的戰線默默揮灑汗水，持續發揚“盯著幹、快乾、幹好”的工作作風，用勞動和奮鬥奏響時代強音，用執著和忠誠踐行初心使命，用拼搏和擔當助推高質量發展、趕超發展，他們有一個響亮的名字——昌樂教育人！

大學國際化排名，上海交通大學第三

大學國際化排名，上海交通大學第三

2019年，西南交通大學大學國際化評價研究中心發佈了中國大陸高校國際化排行，從學生國際化（15%）、教師國際化（15%）、教學國際化（10%）、科研國際化（15%）、文化交流（5%）、國際顯示度（10%）等維度，綜合同行專家評議（30%）、特色項目進行評價，全面、客觀、公正地檢驗

聽新聞丨德州：線上線下培訓防疫知識全力做好開學復課準備工作

山東各地制定嚴格開學條件核驗標準，科學防控，多措並舉，全力做好復學復課準備工作。德州市各學校制定嚴格開學工作方案，全面落實好細化人員摸排、衛生防疫、培訓演練、物資保障等各項措施。

剛剛工作的畢業生，一個月只有2000多，是不是太少了？