Java正則表達式詳細解析_ _ 頭條網

元字符

正則表達式使用一些特定的元字符來檢索、匹配和替換符合規則的字符串元字符：普通字符、標準字符、限定字符（量詞）、定位字符（邊界字符）

正則表達式引擎

正則表達式是一個用正則符號寫出來的公式程序對正則表達式進行語法分析，建立語法分析樹再根據語法分析樹結合正則表達式引擎生成執行程序（狀態機），用於字符匹配正則表達式引擎是一套核心算法，用於建立狀態機小結正則表達式 => 語法分析樹語法分析樹 + 正則表達引擎 => 狀態機 => 用於字符匹配目前實現正則表達式引擎的方式有兩種

DFA自動機（Deterministic Finite Automaton，確定有限狀態自動機）NFA自動機（Nondeterministic Finite Automaton，非確定有限狀態自動機）DFA自動機的構造代價遠大於NFA自動機，但DFA自動機的執行效率高於NFA自動機假設一個字符串的長度為n，如果採用DFA自動機作為正則表達式引擎，則匹配的時間複雜度為O(n)如果採用NFA自動機作為正則表達式引擎，NFA自動機在匹配過程中存在大量的分支和回溯，假設NFA的狀態數為s，則匹配的時間複雜度為O(ns)NFA自動機的優勢是支持更多高級功能，但都是基於子表達式獨立進行匹配因此在編程語言裡，使用的正則表達式庫都是基於NFA自動機實現的

NFA自動機

匹配過程

NFA自動機會讀取正則表達式的每一個字符，拿去和目標字符串匹配匹配成功則換正則表達式的下一個字符，反之就繼續就和目標字符串的下一個字符進行匹配

text="aabcab" regex="bc"

回溯

用NFA自動機實現的比較複雜的正則表達式，在匹配過程中經常會引起回溯問題大量的回溯會長時間佔用CPU，從而帶來系統性能開銷

text="abbc" regex="ab{1,3}c"

讀取正則表達式第一個匹配符a和字符串第一個字符a進行比較，a對a，匹配

讀取正則表達式第二個匹配符b{1,3}和字符串的第二個字符b進行比較，匹配，但b{1,3}表示1~3個字符，而NFA自動機具有貪婪特性，所以不會讀取正則表達式的下一個匹配符c

使用b{1,3}和字符串的第四個字符c進行比較，發現不匹配，此時就會發生回溯

，已經讀取的字符串第四個字符c將被吐出去，指針回到第三個字符b的位置

發生回溯後，讀取正則表達式的下一個匹配符c，和字符串的第四個字符c進行比較，結果匹配

避免回溯

避免回溯的方法：使用懶惰模式和獨佔模式

貪婪模式（Greedy）

在數量匹配中，如果單獨使用+、？、*、{min,max}等量詞，正則表達式會匹配儘可能多的內容text="abbc" , regex="ab{1,3}c"，發生了一次匹配失敗，就會引起一次回溯text="abbbc" , regex="ab{1,3}c"，匹配成功

懶惰模式（Reluctant）

在懶惰模式下，正則表達式會儘可能少地重複匹配字符，如果匹配成功，會繼續匹配剩餘的字符串使用?開啟懶惰模式，text="abc" , regex="ab{1,3}?c"匹配結果是"abc"，在該模式下NFA自動機首先選擇

最小的匹配範圍，即匹配1個b字符，避免了回溯問題

獨佔模式（Possessive）

和貪婪模式一樣，獨佔模式一樣會最大限度地匹配更多內容，但在匹配失敗時會結束匹配，不會發生回溯問題使用+開啟懶惰模式，text="abbc" , regex="ab{1,3}+bc"結果是不匹配，結束匹配，不會發生回溯問題

代碼

match("ab{1,3}c", "abbc"); // abbc，貪婪模式，產生回溯 match("ab{1,3}c", "abbbc"); // abbbc，貪婪模式，不產生回溯 match("ab{1,3}?", "abbbb"); // ab，懶惰模式，不產生回溯 match("ab{1,3}+bc", "abbc"); // null，獨佔模式，不產生回溯

正則表達式的優化

少用貪婪模式，多用獨佔模式（避免回溯）減少分支選擇，分支選擇類型"(X|Y|Z)"的正則表達式會降低性能，儘量減少使用，如果一定要使用考慮選擇的順序，將比較常用的選擇放在前面，使它們可以較快地被匹配提取共用模式，(abcd|abef) => ab(cd|ef)如果是簡單的分支選擇類型，可以用三次index代替(X|Y|Z)

減少捕獲嵌套捕獲組：把正則表達式中，子表達式匹配的內容保存到以數字編號或顯式命名的數組中，一般一個()就是一個捕獲組每個捕獲組都有一個編號，編號0代表整個匹配到的內容非捕獲組：參與匹配卻不進行分組編號的捕獲組，其表達式一般由(?:exp)組成減少不需要獲取的分組，可以提高正則表達式的性能

捕獲組

String text = "test"; String reg = "()(.*?)()"; Pattern p = Pattern.compile(reg); Matcher m = p.matcher(text); while (m.find()) { System.out.println(m.group(0));// 整個匹配到的內容 System.out.println(m.group(1));//() System.out.println(m.group(2));//(.*?) System.out.println(m.group(3));//() // 輸出： // test // // test // }

非捕獲組

String text = "test"; String reg = "(?:)(.*?)(?:)"; Pattern p = Pattern.compile(reg); Matcher m = p.matcher(text); while (m.find()) { System.out.println(m.group(0));// 整個匹配到的內容 System.out.println(m.group(1));//(.*?) // 輸出 // test // test }

小結

在做好性能測試的前提下，可以使用正則表達式，否則能不用就不用，避免造成更多的性能問題.

文章的話到這裡就結束了，希望大家在性能測試中，對正則表達式有自己的認識。今日的性能篇到此結束！

需要更多源碼視頻，面試題，Java技術書籍等學習資料的

可以關注我獲取哦！私信我“學習”；即可領取！

我是小架，我們下篇文章見！

元字符

正則表達式引擎

NFA自動機

正則表達式的優化

捕獲組

非捕獲組

小結

相關文章:

python3從零學習-5.1.3、正則表達式re

文件查找良心工具，讓你的工作效率快速提升，毫秒級別查找

程序員8分鐘教你快速掌握Python爬蟲核心技術，批量爬取網絡圖片

NLP極簡入門指南，助你通過面試，踏入NLP的大門

Python正則表達式，看這一篇就夠了

Scanner類的簡單使用

正則表達式快速處理微信聊天記錄

一個關於jmeter使用的簡單實例

10分鐘瞭解logstash常用插件

Jmeter8-BeanShell斷言

17 個案例，5 分鐘簡單搞定 Linux 正則表達式！

前端基礎-一步步搭建webpack4（react篇 ）一

PHP優化性能的10小技巧與16個常用的魔術方法

還在糾結正則表達式難用嗎？Go語言正則表達式一篇文章就搞定了

Java-正則表達式驗證手機號

Linux系統 文本三劍客之sed詳解 從此不求人

世界上最好的語言PHP 爆出高危漏洞：你信嗎？

如何用java判斷手機號運營商？

學 Python找不到練手項目？試試這 13個實用的

一條正則表達式鬧的烏龍

工具利器 Visual Studio Code 之 Settings（二）

Python進階之路：偏函數functools.partial的應用

Python學習第三天--基於匹配查找模塊--正則表達式

有這三種方式，使用Python抽取網頁內容不用愁

grep命令快速入門

怎樣寫一個能夠校驗複雜規則的正則表達式？

爬蟲小案例：適合Python零基礎、對爬蟲數據採集感興趣的同學！

5分鐘速覽Python正則表達式常用函數！五分鐘就掌握它！

一場pandas與SQL的巔峰大戰（二）

正則表達式大全，仔細看吧

理解Nginx的location

Linux的RPM 與 YUM

正則表達式（三）

Object(..)、Function(..) 和 RegExp(..)

js原生原型

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

備考消防的幾大錯覺，你有這個情況嗎？

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

前端基礎-一步步搭建webpack4（react篇）一

Linux系統文本三劍客之sed詳解從此不求人

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患