Java實現過濾中文亂碼_科技 _ 頭條網

最近在日誌數據清洗時遇到中文亂碼，如果只要有非中文字符就將該字符串過濾掉，這種方法雖簡單但並不可取，因為比如像Xperia™主題、天天四川麻將Ⅱ這樣的字符串也會被過濾掉。

1. Unicode編碼

Unicode編碼是一種涵蓋了世界上所有語言、標點等字符的編碼方式，簡單一點說，就是一種通用的世界碼；其編碼範圍：U+0000 .. U+10FFFF。按Unicode硬編碼的區間進行劃分，Unicode編碼被分成若干個block ( Unicode block)；每一個Unicode編碼專屬於唯一的Unicode block，Unicode block之間互不重疊。從碼字的本身的屬性出發，Unicode編碼被分成了若干script ( Unicode>CJK Radicals SupplementKangxi RadicalsCJK Symbols and Punctuation中的15個字符CJK Unified Ideographs Extension ACJK Unified IdeographsCJK Compatibility IdeographsCJK Unified Ideographs Extension BCJK Unified Ideographs Extension CCJK Unified Ideographs Extension DCJK Unified Ideographs Extension ECJK Compatibility Ideographs Supplement

其中，常見的中文字符在CJK Unified Ideographs block；此外，考慮繁體字及不常見字等，CJK還有A、B、C、D、E五個extension。Basic Latin block完整地包含了ASCII碼的控制字符、標點字符與英文字母字符。

2. Java的字符編碼

JDK完整實現Unicode的block與script：

<code>Char c = '☎'
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c)
Character.UnicodeScript uc = Character.UnicodeScript.of(c);/<code>

Java中的字符char內置的編碼方式是UTF-16，當char強轉成int類型時，其返回值是unicode編碼值，只有當getbyte時才返回的是utf-8編碼的byte：

<code>String s = "\\\\u00a0";
String.format("\\\\\\u%04x", (int) s.charAt(0)) // --> \\\\u00a0
import org.apache.commons.codec.binary.Hex;
Hex.encodeHex(s.getBytes()) // --> c2a0/<code>

UTF-8是Unicode字符的變長前綴編碼的一種實現，二者之間的對應關係在這裡.現在我們回到開篇過濾中文亂碼的問題，有一個基本解決思路：

去掉各種標點字符、控制字符，計算剩下字符中非中文字符所佔的比例，如果超過閾值，則認為該字符串為亂碼串

完整代碼如下：

<code>public class ChineseUtill {

private static boolean isChinese(char c) {
Character.UnicodeScript sc = Character.UnicodeScript.of(c);
if (sc == Character.UnicodeScript.HAN) {
return true;
}
return false;
}

public static boolean isPunctuation(char c) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
if ( // punctuation, spacing, and formatting characters
ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
// symbols and punctuation in the unified Chinese, Japanese and Korean/> || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
// fullwidth character or a halfwidth character
|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
// vertical glyph variants for east Asian compatibility
|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
// vertical punctuation for compatibility characters with the Chinese Standard GB 18030
|| ub == Character.UnicodeBlock.VERTICAL_FORMS
// ascii
|| ub == Character.UnicodeBlock.BASIC_LATIN
) {
return true;
} else {
return false;
}
}

private static Boolean isUserDefined(char c) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
if (ub == Character.UnicodeBlock.NUMBER_FORMS
|| ub == Character.UnicodeBlock.ENCLOSED_ALPHANUMERICS
|| ub == Character.UnicodeBlock.LETTERLIKE_SYMBOLS

|| c == '\\\\ufeff'
|| c == '\\\\u00a0'
)
return true;
return false;
}

public static Boolean isMessy(String str) {
float chlength = 0;
float count = 0;
for(int i = 0; i < str.length(); i++) {
char c = str.charAt(i);
if(isPunctuation(c) || isUserDefined(c))
continue;
else {
if(!isChinese(c)) {
count = count + 1;
}
chlength ++;
}
}
float result = count / chlength;
if(result > 0.3)
return true;
return false;
}

}
/<code>

為了得到更為完整的可接受的字符表，定義isUserDefined方法（具體字符表與日誌中的字符有關係）；加上了Number Forms、Enclosed Alphanumerics、Letterlike Symbols這三個block，以及\\\\u00a0（Non-breaking space）字符與\\\\ufeff（ZERO WIDTH NO-BREAK SPACE）字符。

相關文章:

Java ==,equals ,hashCode 的比較

java 8 stream reduce詳解和誤區

那些年，我們踩過的 Java 坑

Java-POI-Excel導出 包含跨行跨列 Excel表格樣式格式化。

都說 Java 反射效率低，你知道原因在哪裡麼(好好看）

Java 10大裝B寫法，看完可以出去吹一波了！

Java 10 大裝 B 寫法，看完可以出去吹牛逼了！

Java 14 新特性

真沒想到！Java 導出 Excel 表格會變得如此簡單優雅

如何從 Java 8 升級到 Java 12，升級收益及問題處理技巧

Java 基礎：循環結構

Java~類反射~JUnit和註解

Java 14 中令人期待的五大新特性！

Java 老矣，尚能飯否？2020 Java 生態系統報告出爐！

java 線程及線程池解析

Java 凍結或解除凍結Excel中的行和列

今天 Java 14 正式發佈了！放棄 Java 8 行嗎？

Java 狀態報告：Java 8 佔主導，Java 11 不算多

視頻教程+案例，java、python、前端全套

JAVA 8與JAVA 11到底該怎麼選？

Java 線程不安全分析及其解決方法

消滅 Java 代碼的“壞味道”

03.02 把你的空閒時間利用起來，java，python有了這些，你也可以學會

03.01 Java 抽象類與模板設計模式詳解

02.28 Java 實現數據表與簡單Java類映射轉換

2020 年 Java 技術報告：半數開發者仍在使用 Java 8「轉」

02.21 2020 年 Java 技術報告：半數開發者仍在使用 Java 8「轉」

Java 加密

「Java」分享一個使用DES加密和解密的算法

Java 基礎（一）

01.28 Java 14 令人期待的 5 大新特性，打包工具終於要來了

java 開發與快遞鳥對接的推送接口

JAVA 2020款山地車盤點

01.11 JAVA 2020款山地車盤點

JAVA 動態代理講解及實現。面試官咱們換下一個問題。我還行

2020 年九大頂級 Java 框架

Java 程序員，你真的會寫Java文檔註釋(Java Doc Comments)嗎

java.lang.String 的 + 號操作到底做了什麼事情？

Java 9 ← 2017，2019 → Java 13，Java 兩年來都經歷了什麼？

11.27 Java 9 ← 2017，2019 → Java 13 ;來看看Java兩年來的變化

大家都說 Java 反射效率低，你知道原因在哪裡麼

「轉」 Java 無界阻塞隊列 DelayQueue 入門實戰

淺入淺出 Java 排序算法

專業第（3）課-Java 基本數據類型

04.03 Oracle 最後通牒：要 Java 8 更新先交錢！

Java IDE的歷史變遷及idea的使用

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

Java-POI-Excel導出包含跨行跨列 Excel表格樣式格式化。

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！