CSDN-CSDN社区-Java-Java SE

收藏 如何判断几个字符是中文或是E文或是日文或是其他国家的非中文?[问题点数:100,结帖人:wdail]

  • wdail
  • 等 级:
  • 结帖率:
楼主发表于:2007-01-06 18:26:54
如题。
如果几个字符中又含中文又含E文又含其他国家的语言,怎么判断?
想做一个根据名字得到名字首字母的程序,高手帮帮忙。。。

回复次数:19
  • dlxu用户头像
  • dlxu
  • (加菲猫)
  • 等 级:
#1楼 得分:5回复于:2007-01-06 18:53:46
首先你要知道是什么编码,然后根据那个编码的标准文档来根据编码值取得是什么字符
#2楼 得分:0回复于:2007-01-06 19:11:26
如果只是几个字母,并且你不知道编码的话,应该就是不可能的任务了。
#3楼 得分:5回复于:2007-01-06 19:25:18
有个猜测编码的方法,不记得是不是Java哪里带的了。
#4楼 得分:0回复于:2007-01-06 20:03:08
mark
#5楼 得分:5回复于:2007-01-06 20:22:32
用正则解决[范围],汉字有汉字的范围,日文有日文的范围.GOOGLE下,看在哪个范围内就能判断是哪种文字
#6楼 得分:0回复于:2007-01-07 16:23:20
能不能给点代码??别说:GOOGLE下,代码都在GOOGLE里。。
#7楼 得分:5回复于:2007-01-07 18:36:51
这个判断中文的正则[\u4e00-\u9fff]
  • cqusgx用户头像
  • cqusgx
  • (草原)
  • 等 级:
#8楼 得分:0回复于:2007-01-11 10:34:18
正则表达式
#9楼 得分:0回复于:2007-01-11 11:09:09
根据unicode的值,判断范围,进而判断出是什么文
#10楼 得分:0回复于:2007-01-11 11:22:31
楼上的朋友们说得对.要看是什么编码.你只要知道各日语言的编码就OK了.
#11楼 得分:5回复于:2007-01-11 11:25:04
上面unicode的判断可以判断是否中文汉字。不过unicode中,只要字形一样,比如 "日 ",中文、日文都共用同一个

其实,楼主判断是否中文纯粹自寻烦恼,把字符集设置成unicode(utf8等),保证数据库、程序、网页等都不乱码,实在比准确区分一个句子是否全中文更方便。
#12楼 得分:5回复于:2007-01-11 11:28:03
F:\j2sdk1.4.2_07\demo\jfc\Font2DTest
字符的unicode值
#13楼 得分:5回复于:2007-01-11 12:58:47
确实够麻烦的
#14楼 得分:5回复于:2007-01-11 16:50:09
mark!
#15楼 得分:5回复于:2007-01-11 17:10:45
up
#16楼 得分:30回复于:2007-01-14 15:58:01
我也遇到过
public   class   Test  
{
public   static   void   main(String   args[])  
{
String   a= "你好 ";
String   b= "hello ";
System.out.println((int)a.charAt(0));
System.out.println((int)b.charAt(0));
}
}
这样就可以了   只要知道编码范围
  • syoumei用户头像
  • syoumei
  • (良将不择器)
  • 等 级:
#17楼 得分:25回复于:2007-01-16 16:24:18
0000:Basic   Latin   基本拉丁语
0080:Latin-1   Supplement   拉丁语-1补遗
0100:Latin   Extended-A   拉丁语扩充-A
0180:Latin   Extended-B   拉丁语扩充-B
0250:IPA   Extensions   国际音标
02B0:Spacing   Modifier   Letters
0300:Combining   Diacritical   Marks   组合变音符
0370:Greek   and   Coptic   希腊语和埃及语
0400:Cyrillic   西里尔文
0500:Cyrillic   Supplement   西里尔文补遗
0530:Armenian   亚美尼亚语
0590:Hebrew   希伯来语
0600:Arabic   阿拉伯语
0700:Syriac   叙利亚语
0780:Thaana   马尔代夫语
0900:Devanagari   梵文
0980:Bengali   孟加拉语
0A00:Gurmukhi   果鲁穆奇语
0A80:Gujarati   古吉特拉语
0B00:Oriya   奥里雅语
0B80:Tamil   泰米尔语
0C00:Telugu   泰卢固语
0C80:Kannada   埃纳德语
0D00:Malayalam   马拉雅拉姆语
0D80:Sinhala   锡兰语
0E00:Thai   泰国语
0E80:Lao   老挝语
0F00:Tibetan   西藏语
1000:Myanmar   玛雅语
10A0:Georgian   格鲁吉亚语
1100:Hangul   Jamo   (一种特殊韩文)
1200:ethiopic   埃塞俄比亚语
13A0:Cherokee   切罗基语
1400:Unified   Canadian   Aboriginal   Syllabic
1680:Ogham   欧甘字母
16A0:Runic   古代北欧文字
1700:Tagalog   塔加拉语
1720:Hanunoo
1740:Buhid
1760:Tagbanwa
1780:Khmer   高棉语
1800:Mongolian   蒙古语
1900:Limbu
1950:Tai   Le
19E0:Khmer   Symbols   孟高棉语符号
1D00:Phonetic   Extensions   语音扩充
1E00:Latin   Extended   Additional   拉丁扩充附加
1F00:Greek   Extended   希腊语扩充
2000:General   Punctuation   通用标点
2070:Superscripts   and   Subscripts   上标和下标
20A0:Currency   Symbols   货币符号
20D0:Combining   Marks   for   Symbols
2100:Letterlike   Symbols
2150:Number   Forms   数字形式
2190:Arrows   箭头
2200:Mathematical   Operators   数学运算符
2300:Miscellaneous   Technical   零杂技术用符号
2400:Control   Pictures
2440:Optical   Character   Recognition
2460:enclosed   Alphanumerics   带圈和括号的数字与字母
2500:Box   Drawing   边框
2580:Block   Elements   方块
25A0:Geometric   Shapes   几何形状
2600:Miscellaneous   Symbols   零杂符号
2700:Dingbats   丁贝符
27D0:Miscellaneous   Mathematical   Symbols-A   零杂数学符号
27F0:Supplemental   Arrows-A   扩充箭头A
2800:Braille   Patterns   盲文
2900:Supplemental   Arrows-B   扩充箭头B
2980:Miscellaneous   Mathematical   Symbols-B   零杂数学符号B
2A00:Supplemental   Mathematical   Operators   扩充的数学运算符
2B00:Miscellaneous   Symbols   and   Arrows   零杂符号和箭头
2E80:CJK   Radicals   Supplement   CJK词根补遗
2F00:Kangxi   Radicals   Kangxi词根
2FF0:Ideographic   Description   Characters   表意符号
3000:CJK   Symbols   and   Punctuation   CJK符号和标点
3040:Hiragana   平假名
30A0:Katakana   片假名
3100:Bopomofo   汉语注音符号
3130:Hangul   Compatibility   Jamo
3190:Kanbun
31A0:Bopomofo   Extended   汉语注音符号扩充
31F0:Katakana   Phonetic   Extensions
3200:enclosed   CJK   Letters   and   Months   带圈的CJK字母和月份
3300:CJK   Compatibility   CJK兼容
3400:CJK   Unified   Ideographs   Extension   A   (1.5MB)   CJK统一象形文字扩展A
4DC0:Yijing   Hexagram   Symbols   易经符号
4E00:CJK   Unified   Ideographs   (5MB)   CJK统一象形文字
A000:Yi   Syllables   彝语音节
A490:Yi   Radicals   彝语词根
AC00:Hangul   Syllables   (7MB)   Hangul音节
D800:High   Surrogates   高代用品
DC00:Low   Surrogates   低代用品
E000:Private   Use   Area   私人保留区
F900:CJK   Compatibility   Ideographs   CJK兼容象形文字
FB00:Alphabetic   Presentation   Forms   字母序的表象符
FB50:Arabic   Presentation   Forms-A   阿拉伯表象符A
FE00:Variation   Selectors
FE20:Combining   Half   Marks
FE30:CJK   Compatibility   Forms
FE50:Small   Form   Variants
FE70:Arabic   Presentation   Forms-B   阿拉伯表象符-B
FF00:Halfwidth   and   Fullwidth   Forms   半宽和全宽形式
FFF0:Specials   特殊符号
#18楼 得分:0回复于:2007-01-16 16:42:49
unicode码
#19楼 得分:0回复于:2007-02-05 17:12:54
hoho,学习
相关问题
英文环境中使用简体中文程序的汉字显示问题MS-SQL Server / 基础类 ...
千金散尽还复来,只求弄个明白——关于语言、代码页、字符集的概念问题C ...
如何在一个字符串中取前2个中文字符VB / 基础类- CSDN社区community ...
请问什么是Unicode? C++ Builder / 基础类- CSDN社区community.csdn.net
紧随时代的问题。。。。 VC/MFC / 基础类- CSDN社区community.csdn.net
怎样判断一个字符是否为中文字? Java / J2SE / 基础类- CSDN社区 ...