首页
新闻
论坛
群组
Blog
文档
下载
读书
Tag
网摘
搜索
.NET
Java
游戏
视频
人才
外包
培训
数据库
书店
程序员
欢迎您:
游客
| 退出
| 登录
注册
帮助
我的帖子
我参与的帖子
我的空间
我的网摘
CSDN
CSDN社区
Java
Web 开发
将帖子提前
放进我的网摘
推荐给好友
我要提问
帖子加分
生成帖子
置顶
推荐(加精)
取消推荐(加精)
锁定帖子
移动帖子
取消引用
结贴去...
管理菜单
页面风格切换
标准风格
老版本论坛
如何提取HTML中需要的信息。
[已结贴,结贴人:myepoch]
加为好友
发送私信
在线聊天
myepoch
myepoch
等级:
可用分等级:
富农
总技术专家分:
131
总技术专家分排名:
76086
揭帖率:
26.51%
发表于:
2007-11-08 09:10:33
楼主
请问各位用什么工具进行HTML的解析呢?
目的是想通过这个工具将HTML中需要的内容提取出来。比如一个新闻页面,我只要标题,内容(包括与内容有关图片等信息),时间等。而将其他无用信息(比如广告)屏蔽调。
那个工具比较好,文档和实例多些的。谢谢各位。
问题点数:
20
回复次数:
4
显示所有回复
显示星级回复
显示楼主回复
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
simpleminedboy
等级:
可用分等级:
贫农
总技术专家分:
10
总技术专家分排名:
211901
发表于:
2007-11-08 09:41:24
1
楼 得分:
6
我不知道有什么工具,但是Java提供一个java.net.URL,可以获得返回HTML的内容,是个InputStream。之后你转为字符串,想怎么用就怎么用,不过,配合专业的正则表达式工具会更好一些。
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
danier_sky
等级:
可用分等级:
富农
总技术专家分:
567
总技术专家分排名:
29528
发表于:
2007-11-08 11:02:42
2
楼 得分:
9
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import java.net.URL;
import java.net.URLConnection;
....
public class HtmlParser {
//读取html中的表格
public static String readTable(String resource,int t) throws Exception {
Parser myParser = new Parser(resource);
String filterStr = "table";
NodeFilter filter = new TagNameFilter(filterStr);
NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
TableTag tabletag = (TableTag) nodeList.elementAt(t);
return tabletag.toHtml();
}
public static void main(String[] args) throws Exception {
String url="www.xxx.com.cn";
String str=readTable(url,2); // 2代表html中的第二个table
System.out.println(str);
}
// 读取html
public String readHtml(){
DataInputStream dis=null;
String str=null;
InputStream is=null;
try{
String url="......";
URL rss=new URL(url);
URLConnection con= (URLConnection) rss.openConnection();
dis=new DataInputStream(con.getInputStream());
String line;
while((line=dis.readLine())!=null){
line = new String(line.trim().getBytes("iso8859-1"), "GB2312");
str+=line;
}
System.out.println(str);
dis.close();
//这里可以截取字符串来获取你想要的信息,如标题
}
catch(Exception e){....}
}
}
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
zhonghuabao
═╬戀戀乄华
等级:
可用分等级:
贫农
总技术专家分:
913
总技术专家分排名:
20671
发表于:
2007-11-08 16:54:02
3
楼 得分:
4
正则表达式..
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
silence1214
等级:
可用分等级:
中农
总技术专家分:
465
总技术专家分排名:
34213
发表于:
2007-11-08 23:58:11
4
楼 得分:
1
1楼说的很全面,3楼说的不错。2楼用了HtmlParser这个开源包
修改
删除
举报
引用
回复
将帖子提前
放进我的网摘
推荐给好友
我要提问
帖子加分
结贴去...
管理菜单
页面风格切换
标准风格
老版本论坛
网站简介
-
广告服务
-
网站地图
-
帮助
-
联系方式
-
诚聘英才
-
English
-
问题报告
北京创新乐知广告有限公司 版权所有 京 ICP 证 070598 号
世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright © 2000-2008, CSDN.NET, All Rights Reserved
abc推荐给好友