新聞中心
最近在日志數(shù)據(jù)清洗時遇到中文亂碼,如果只要有非中文字符就將該字符串過濾掉,這種方法雖簡單但并不可取,因為比如像Xperia?主題、天天四川麻將Ⅱ這樣的字符串也會被過濾掉。

公司主營業(yè)務:成都做網(wǎng)站、成都網(wǎng)站制作、移動網(wǎng)站開發(fā)等業(yè)務。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。成都創(chuàng)新互聯(lián)是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。成都創(chuàng)新互聯(lián)推出奈曼免費做網(wǎng)站回饋大家。
1. Unicode編碼
Unicode編碼是一種涵蓋了世界上所有語言、標點等字符的編碼方式,簡單一點說,就是一種通用的世界碼;其編碼范圍:U+0000 .. U+10FFFF。按Unicode硬編碼的區(qū)間進行劃分,Unicode編碼被分成若干個block ( Unicode block);每一個Unicode編碼專屬于唯一的Unicode block,Unicode block之間互不重疊。從碼字的本身的屬性出發(fā),Unicode編碼被分成了若干script ( Unicode script);比如,與中文相關(guān)的字符、標點的scriptHan包括block如下:
CJK Radicals Supplement
Kangxi Radicals
CJK Symbols and Punctuation中的15個字符
CJK Unified Ideographs Extension A
CJK Unified Ideographs
CJK Compatibility Ideographs
CJK Unified Ideographs Extension B
CJK Unified Ideographs Extension C
CJK Unified Ideographs Extension D
CJK Unified Ideographs Extension E
CJK Compatibility Ideographs Supplement
其中,常見的中文字符在CJK Unified Ideographs block;此外,考慮繁體字及不常見字等,CJK還有A、B、C、D、E五個extension。Basic Latin block完整地包含了ASCII碼的控制字符、標點字符與英文字母字符。
2. Java的字符編碼
JDK完整實現(xiàn)Unicode的block與script:
Char c = ''
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c)
Character.UnicodeScript uc = Character.UnicodeScript.of(c);
Java中的字符char內(nèi)置的編碼方式是UTF-16,當char強轉(zhuǎn)成int類型時,其返回值是unicode編碼值,只有當getbyte時才返回的是utf-8編碼的byte:
String s = "\u00a0";
String.format("\\u%04x", (int) s.charAt(0)) // --> \u00a0
import org.apache.commons.codec.binary.Hex;
Hex.encodeHex(s.getBytes()) // --> c2a0
UTF-8是Unicode字符的變長前綴編碼的一種實現(xiàn),二者之間的對應關(guān)系在這里.現(xiàn)在我們回到開篇過濾中文亂碼的問題,有一個基本解決思路:
-
去掉各種標點字符、控制字符,
-
計算剩下字符中非中文字符所占的比例,如果超過閾值,則認為該字符串為亂碼串
完整代碼如下:
public class ChineseUtill {
private static boolean isChinese(char c) {
Character.UnicodeScript sc = Character.UnicodeScript.of(c);
if (sc == Character.UnicodeScript.HAN) {
return true;
}
return false;
}
public static boolean isPunctuation(char c) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
if ( // punctuation, spacing, and formatting characters
ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
// symbols and punctuation in the unified Chinese, Japanese and Korean script
|| ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
// fullwidth character or a halfwidth character
|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
// vertical glyph variants for east Asian compatibility
|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
// vertical punctuation for compatibility characters with the Chinese Standard GB 18030
|| ub == Character.UnicodeBlock.VERTICAL_FORMS
// ascii
|| ub == Character.UnicodeBlock.BASIC_LATIN
) {
return true;
} else {
return false;
}
}
private static Boolean isUserDefined(char c) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
if (ub == Character.UnicodeBlock.NUMBER_FORMS
|| ub == Character.UnicodeBlock.ENCLOSED_ALPHANUMERICS
|| ub == Character.UnicodeBlock.LETTERLIKE_SYMBOLS
|| c == '\ufeff'
|| c == '\u00a0'
)
return true;
return false;
}
public static Boolean isMessy(String str) {
float chlength = 0;
float count = 0;
for(int i = 0; i if(isPunctuation(c) || isUserDefined(c))
continue;
else {
if(!isChinese(c)) {
count = count + 1;
}
chlength ++;
}
}
float result = count / chlength;
if(result > 0.3)
return true;
return false;
}
}
為了得到更為完整的可接受的字符表,定義isUserDefined方法(具體字符表與日志中的字符有關(guān)系);加上了Number Forms、Enclosed Alphanumerics、Letterlike Symbols這三個block,以及\u00a0(Non-breaking space)字符與\ufeff(ZERO WIDTH NO-BREAK SPACE)字符。
本文題目:通過java實現(xiàn)過濾中文亂碼
標題網(wǎng)址:http://www.dlmjj.cn/article/coojsog.html


咨詢
建站咨詢
