全部
Ada助手

汉字的unicode码范围是多少

weinianjie1 2008-06-29 12:14:48

想做一个程序，统计一片文章的汉字个数，但是不知道汉字的unicode码，谁知道的帮帮我~谢谢了

...全文

给本帖投票

23795 15 打赏收藏转发到动态举报

写回复

用AI写文章

15 条回复

切换为时间正序

请发表友善的回复…

发表回复

网络科技 2012-08-23

打赏
举报

马克，学习了

wzb56 2012-08-23

打赏
举报

学习了！！！

talentluo520 2011-10-12

打赏
举报

mark备查，不接分。

java_freshman01 2010-12-30

打赏
举报

学习》。。。。

zfflx 2010-11-04

打赏
举报

mark,学习了。

xjtutju 2010-04-16

打赏
举报

学习一下啦～

sd5816690 2008-06-29

打赏
举报

[Quote=引用 4 楼 lord_is_layuping 的回复:]
对中文还是u4e00~u9fff比较好些.
[/Quote]
哦

54powerman 2008-06-29

打赏
举报

mark备查，不接分。

lord_is_layuping 2008-06-29

打赏
举报

对中文还是u4e00~u9fff比较好些.

sd5816690 2008-06-29

打赏
举报

怎么网上都说的是 [\u4e00-\u9fa5] 呢，
我也一直在用 [\u4e00-\u9fa5]

lord_is_layuping 2008-06-29

打赏
举报

unicode码的分布情况，够清楚了吧！不仅汉字，什么都有了！
*******************************************************
0000..007F; Basic Latin
0080..00FF; Latin-1 Supplement
0100..017F; Latin Extended-A
0180..024F; Latin Extended-B
0250..02AF; IPA Extensions
02B0..02FF; Spacing Modifier Letters
0300..036F; Combining Diacritical Marks
0370..03FF; Greek
0400..04FF; Cyrillic
0530..058F; Armenian
0590..05FF; Hebrew
0600..06FF; Arabic
0700..074F; Syriac
0780..07BF; Thaana
0900..097F; Devanagari
0980..09FF; Bengali
0A00..0A7F; Gurmukhi
0A80..0AFF; Gujarati
0B00..0B7F; Oriya
0B80..0BFF; Tamil
0C00..0C7F; Telugu
0C80..0CFF; Kannada
0D00..0D7F; Malayalam
0D80..0DFF; Sinhala
0E00..0E7F; Thai
0E80..0EFF; Lao
0F00..0FFF; Tibetan
1000..109F; Myanmar
10A0..10FF; Georgian
1100..11FF; Hangul Jamo
1200..137F; Ethiopic
13A0..13FF; Cherokee
1400..167F; Unified Canadian Aboriginal Syllabics
1680..169F; Ogham
16A0..16FF; Runic
1780..17FF; Khmer
1800..18AF; Mongolian
1E00..1EFF; Latin Extended Additional
1F00..1FFF; Greek Extended
2000..206F; General Punctuation
2070..209F; Superscripts and Subscripts
20A0..20CF; Currency Symbols
20D0..20FF; Combining Marks for Symbols
2100..214F; Letterlike Symbols
2150..218F; Number Forms
2190..21FF; Arrows
2200..22FF; Mathematical Operators
2300..23FF; Miscellaneous Technical
2400..243F; Control Pictures
2440..245F; Optical Character Recognition
2460..24FF; Enclosed Alphanumerics
2500..257F; Box Drawing
2580..259F; Block Elements
25A0..25FF; Geometric Shapes
2600..26FF; Miscellaneous Symbols
2700..27BF; Dingbats
2800..28FF; Braille Patterns
2E80..2EFF; CJK Radicals Supplement
2F00..2FDF; Kangxi Radicals
2FF0..2FFF; Ideographic Description Characters
3000..303F; CJK Symbols and Punctuation
3040..309F; Hiragana
30A0..30FF; Katakana
3100..312F; Bopomofo
3130..318F; Hangul Compatibility Jamo
3190..319F; Kanbun
31A0..31BF; Bopomofo Extended
3200..32FF; Enclosed CJK Letters and Months
3300..33FF; CJK Compatibility
3400..4DB5; CJK Unified Ideographs Extension A
4E00..9FFF; CJK Unified Ideographs
A000..A48F; Yi Syllables
A490..A4CF; Yi Radicals
AC00..D7A3; Hangul Syllables
D800..DB7F; High Surrogates
DB80..DBFF; High Private Use Surrogates
DC00..DFFF; Low Surrogates
E000..F8FF; Private Use
F900..FAFF; CJK Compatibility Ideographs
FB00..FB4F; Alphabetic Presentation Forms
FB50..FDFF; Arabic Presentation Forms-A
FE20..FE2F; Combining Half Marks
FE30..FE4F; CJK Compatibility Forms
FE50..FE6F; Small Form Variants
FE70..FEFE; Arabic Presentation Forms-B
FEFF..FEFF; Specials
FF00..FFEF; Halfwidth and Fullwidth Forms
FFF0..FFFD; Specials
10300..1032F; Old Italic
10330..1034F; Gothic
10400..1044F; Deseret
1D000..1D0FF; Byzantine Musical Symbols
1D100..1D1FF; Musical Symbols
1D400..1D7FF; Mathematical Alphanumeric Symbols
20000..2A6D6; CJK Unified Ideographs Extension B
2F800..2FA1F; CJK Compatibility Ideographs Supplement
E0000..E007F; Tags
F0000..FFFFD; Private Use
100000..10FFFD; Private Use

lord_is_layuping 2008-06-29

打赏
举报

学习。

name99_6 2008-06-29

打赏
举报

顶楼上的,学习..

火龙果被占用了 2008-06-29

打赏
举报

Unicode CJK 的范围分布在多个区段中，2 楼所贴出来的是整个 Unicode 中区块
表，带有 CJK 的区块名中都拥有汉字。但最常用的范围是 U+4E00～U+9FA5，即名
为：CJK Unified Ideographs 的区块，但 U+9FA6～U+9FFF 之间的字符还属于空码，
暂时还未定义，但不能保证以后不会被定义。

下面这个是 Unicode 中 U+4E00～U+9FFF 的码表：
http://www.unicode.org/charts/PDF/U4E00.pdf

在这里可以根据 Unicode 码查到所有的字符：
http://www.unicode.org/cgi-bin/GetUnihanData.pl

另：在正则表达式中使用 [\u4e00-\u9fa5] 这种方式属于写死的代码，并不能根据
平台所提供的字符集范围不同而改变，不过对于要求不是很高的话的是可以了。如果
对字符集的要求很高，可以采用下面的这种 Unicode 块的方式：

String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";

在当前的 JDK 版中与 [\u4e00-\u9fa5] 的意义一致。但这样可以匹配 Java 平台所支持
Unicode 块名为 CJK Unified Ideogrpahs 中已定义的字符，这种方式就属于“活”代码
今后的 JDK 版本升级了，定义到了 \u9fa6 的字符，同样能够满足匹配。

通用规范汉字UNICODE码表，提供一级字表、二级字表、三级字表全部8105字的UNICODE编码

Unicode汉字编码表，包含几乎完整的汉字编码，PDF格式。资源分想给0分的，可是没这个选项，只好选择最低的2分。

最全的常用汉字Unicode码表，举例：\u7684\u4e00\u662f\u4e86\u6211\u4e0d\u4eba\u5728\u4ed6\u6709\u8fd9\u4e2a\u4e0a\u4eec\u6765\u5230\u65f6\u5927\u5730\u4e3a\u5b50\u4e2d\u4f60\u8bf4\u751f\u56fd\u5e74 。

汉字一、二级字库的汉字与unicode编码(十六进制)对照表，按照unicode的顺序排列

Unicode 编码范围各国文字 Unicode 编码范围各国文字 Unicode 编码范围各国文字 Unicode 编码范围各国文字 Unicode 编码范围各国文字 Unicode 编码范围各国文字

Java SE

62,635

社区成员

307,269

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章