java中如何把非法IP这样的网页信息转换成中文文字信息并写文件

zfy_908 2008-10-06 10:54:33
在做爬虫,有些网页源代码里面的中文信息在浏览器上可以正常显示,但是用readLine()读出来就是上述的格式
现在只想到一个一个的去转
不知道各位高手们有没有好的办法
...全文
1440 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
zfy_908 2008-10-06
  • 打赏
  • 举报
回复
为什么浏览器可以正常显示,读取网页源代码的时候就成非法IP这样了呢
hanbb 2008-10-06
  • 打赏
  • 举报
回复
字典
  • 打赏
  • 举报
回复
你是要编码?

Commons Lang 包中的 StringEscapeUtil 有 escapeHtml 这个方法啊。
eimhee 2008-10-06
  • 打赏
  • 举报
回复
我不是要解码的
老紫竹 2008-10-06
  • 打赏
  • 举报
回复
Html 解码的Java类 http://www.java2000.net/p102
我写的解析的类。,用法如下
System.out.println(HTMLDecoder.decode("非法IP"));
结果
非法IP
eimhee 2008-10-06
  • 打赏
  • 举报
回复
谁可以写一个escapeHtml方法出来, 汉字转换成HTML编码
  • 打赏
  • 举报
回复
不知道为什么会这样,如果读到这种字符的话,可以使用 Apache Commons Lang 包中的工具来转换一下:

import org.apache.commons.lang.StringEscapeUtils;

public class Test1 {

public static void main(String[] args) {
String str = "非法IP";
str = StringEscapeUtils.unescapeHtml(str);
System.out.println(str);
}
}


commons lang 在很多开源框架里都有的,可以已经在 classpath 下了,如果没有的话,
到这里去下载:
http://commons.apache.org/lang/
meadking 2008-10-06
  • 打赏
  • 举报
回复
编码转换
1可能是url编码过了,
看看它的源代码!

2你读取的时候,字符集有问题!

81,094

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧