[分享及讨论]JE22项目的乱码问题及预防
1.统一项目编码是关键,尤其是集成了一些开发框架(如extjs)后的项目,更要注重统一字符集编码。根据较为惨痛的经验表明:即使有时候选用GBK编码的项目,在不同WEB容器部署下也可能产生差异性问题:即在某WEB容器中仍然会出现乱码问题。
由于UFT-8的通用性,使得其在解决乱码问题上要比其它编码的效果要好的多。因此,在一个J2EE项目中,应该尽量使用UTF-8作为项目的统一编码。
下面就在Eclipse v3.5中如何设置统一编码进行步骤说明:
1).工具栏->Window/Preferences/General/Workspace
Text file encoding = other -> UTF-8
2).工具栏->Window/Preferences/General/Content Types
设置项目中可能使用的文本类型的编码
3).工具栏->Window/Preferences/Web
CSS Files、HTML Files、JS Files、JSP Files 都设为UTF-8
4).右击项目点选Properties/Resource
Text file encoding = other -> UTF-8 (此设置对项目移植时的作用比较大)
5).如果有使用ANT脚本进行打包,并在脚本中使用了javac命令时,需在此命令中加入属性 encoding="UTF-8"
以上操作建议新建项目后就进行设置。
2.在现在项目中(如开发并不久)时更改编码集时,可能会引起一些文件内容的乱码问题。所以在修改之前可查看该文件的Properties中的Text file encoding,如果默认情况下与容器的不一致,需要借助第三方软件(如EncodingConverter)进行文件的编码转换。但转换后如果在Eclipse中该文件有BOM(Byte Order Mark)标记,则需要将些标记去除,以避免在跨平台时有些运行环境由于不能识别此标记而出现错误的情况。
3.如果项目开发了挺长时间,出现了什么乱码问题。就自个慢慢解决吧。预防为主!
============^$#%=======$#@==========我是潇洒的分割线============&^%$^$#===================
PS1:关于BOM
[什么是BOM]
BOM(byte-order mark),即字节顺序标记,它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记,用来识别Unicode文件的编码类型。对于UTF-8来说,BOM并不是必须的,因为BOM用来标记多字节编码文件的编码类型和字节顺序(big-endian或little-endian)。
在绝大多数编辑器中都看不到BOM字符,因为它们能理解Unicode,去掉了读取器看不到的题头信息。若要查看某个Unicode文件是否以BOM开头,可以使用十六进制编辑器。下面列出了不同编码所对应的BOM。
BOM Encoding
EF BB BF UTF-8
FE FF UTF-16 (big-endian)
FF FE UTF-16 (little-endian)
00 00 FE FF UTF-32 (big-endian)
FF FE 00 00 UTF-32 (little-endian)
[BOM的来历]
为了识别 Unicode 文件,Microsoft 建议所有的 Unicode 文件应该以 ZERO WIDTH NOBREAK SPACE(U+FEFF)字符开头。这作为一个"特征符"或"字节顺序标记(Byte-Order Mark,BOM)"来识别文件中使用的编码和字节顺序。
[不同的系统对BOM的支持]
因为一些系统或程序不支持BOM,因此带有BOM的Unicode文件有时会带来一些问题。
1.JDK1.5以及之前的Reader都不能处理带有BOM的UTF-8编码的文件,解析这种格式的xml文件时,会抛出异常:Content is not allowed in prolog.
2.Linux/UNIX 并没有使用 BOM,因为它会破坏现有的 ASCII 文件的语法约定。
不同的编辑工具对BOM的处理也各不相同。使用Windows自带的记事本将文件保存为UTF-8编码的时候,记事本会自动在文件开头插入BOM(虽然BOM对UTF-8来说并不是必须的),但是EditPlus就不会这样做。
PS2: NOTEPAD++可以去除文件的BOM标记,但更好的方法是找到一个能够一步到位的文件编码转换工具(或自己写一个小工具)