社区
Web 开发
帖子详情
使用 htmlparser 包获取网页中的 超链信息 和 超链标题
zhouzhijian888
2008-12-25 09:18:25
能运行 出来的
或者 直接写的 代码也可以
例子 也可以
谢谢了 !```````
...全文
264
10
打赏
收藏
使用 htmlparser 包获取网页中的 超链信息 和 超链标题
能运行 出来的 或者 直接写的 代码也可以 例子 也可以 谢谢了 !```````
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
10 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
zhouzhijian888
2008-12-25
打赏
举报
回复
我用的是 htmlparser 2.0的包
parser.extractAllNodesThatAre (TableTag.class);
这个方法报错的
jack0511
2008-12-25
打赏
举报
回复
楼主是要抓取网页中的所有url?
用正则表达式啊
lizhi1026
2008-12-25
打赏
举报
回复
这就是个网址上截取的一部分
看了下,你设置下
String filterStrP = "a"; // 这里析取得是标签为 <a> </a>中的信息
NodeFilter filterP = new TagNameFilter(filterStrP);// 过滤这个标签
NodeList nodeListP = myParserP.extractAllNodesThatMatch(filterP);// 抽取所有匹配的p列表
这个过滤条件改下,就可以了,输入你要获得的超链接的标签。
jiang_jiajia10
2008-12-25
打赏
举报
回复
[Quote=引用 5 楼 TinyJimmy 的回复:]
没有用过,刚刚了解原来还有专门分析网页结构的东东.
http://www.yeeach.com/2008/05/19/htmlparser使用指南/
[/Quote]
UP
抬头望远,低头沉思
2008-12-25
打赏
举报
回复
楼主参考一下这个博客
http://www.shoulai.cn/BBS_Topic/Topic_1174.html
TinyJimmy
2008-12-25
打赏
举报
回复
没有用过,刚刚了解原来还有专门分析网页结构的东东.
http://www.yeeach.com/2008/05/19/htmlparser使用指南/
zhouzhijian888
2008-12-25
打赏
举报
回复
一个是截取的 Div 一个是截取wml 的!~~ 没有 截取html 的?
我的url 是任意的 一个网址
lizhi1026
2008-12-25
打赏
举报
回复
晴转多云
7℃/ -2℃
微风
他抓的是这几个字。你看看咯,刚刚好,我也学习下
glglglglglgllll
2008-12-25
打赏
举报
回复
http://www.ibm.com/developerworks/cn/opensource/os-htmlparser/
lizhi1026
2008-12-25
打赏
举报
回复
<div class="box_contenttodayinwea" id="c_1_1">
<p><span><a href="http://www.weather.com.cn/static/html/legend.shtml" target="_blank">
<img src="/m/i/icon_weather/42x30/d00.gif" /></a>
<a href="http://www.weather.com.cn/static/html/legend.shtml" target="_blank">
<img src="/m/i/icon_weather/42x30/n01.gif" /></a>
</span>
<em><strong>晴转多云</strong></em>
<em class="no_today">7℃/ -2℃</em>
<em>微风</em><br/>
</p>
<dl class="right">
<dd><span>紫外线:弱<br />
洗车:适宜<br />
<img src="/m/i/twc/down.gif" /></span><em>气温趋势</em></dd>
<dd><span><br />
<br />
<img src="/m/i/twc/wind0.gif" /></span><em>今日风力</em></dd>
<dd><span>穿衣:凉<br />
舒适度:较舒适<br />
<img src="/m/i/twc/co1.gif" /></span><em>舒适指数</em></dd>
<dt><span></span></dt>
</dl>
</div>
注:红字部分,为要抓取部分 抓取代码如下:
Parser myParser = new Parser(resource); //resource:对应的url
String filterStr = "div";
NodeFilter filter = new TagNameFilter(filterStr);
NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
String str = null;
for(int i = 0 ; i < nodeList.size() ; i ++)
{
Div div = (Div) nodeList.elementAt(i); // 遍历Div标签
String classV = div.getAttribute("id");
if (classV != null && divId.equals(classV)) { //dicId为产过来的一个参数,其值为:c_1_1
str = div.getChildrenHTML(); //找到对应的<div id="c_1_1">下的信息;
Parser myParserP = new Parser(str);
String filterStrP = "p"; // 这里析取得是标签为<P></P>中的信息
NodeFilter filterP = new TagNameFilter(filterStrP);// 过滤这个标签
NodeList nodeListP = myParserP.extractAllNodesThatMatch(filterP);// 抽取所有匹配的p列表
ParagraphTag pTag = (ParagraphTag) nodeListP.elementAt(0);//得到第一个<P></P>中的信息
String weather = pTag.toPlainTextString().trim();
Parser myParserImg = new Parser(str);
String filterStrImg = "img";// 这里析取得是标签为img的元素
NodeFilter filterImg = new TagNameFilter(filterStrImg);// 过滤这个标签
NodeList nodeListImg = myParserImg.extractAllNodesThatMatch(filterImg);// 抽取所有img信息
ImageTag image1 = (ImageTag) nodeListImg.elementAt(0); //图片一
ImageTag image2 = (ImageTag) nodeListImg.elementAt(1);
String imageUrl1 = image1.getImageURL(); //得到图片一的url
String imageUrl2 = image2.getImageURL();
List ls = new ArrayList();
ls.add(imageUrl1);
ls.add(imageUrl2);
ls.add(weather);
return ls;
}
}
网上帮你找的
HtmlParser
应用,
使用
Filter从爬取到的
网页
中
获取
需要的内容
HtmlParser
应用,
使用
Filter从爬取到的
网页
中
获取
需要的内容
htmlparser
是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在
htmlparser
最新版本为2.0。 下载地址: http://sourceforge.net/projects/
htmlparser
/
HTML 解析 --
htmlparser
基本
使用
1.
htmlparser
使用
htmlparser
是一个纯的java写的html解析的库,
htmlparser
不依赖于其它的java库,
htmlparser
主要用于改造或提取html。
htmlparser
能超高速解析html,而且不会出错。毫不夸张地说,
htmlparser
就是目前最好的html解析和分析的工具。无论你是想抓取
网页
数据还是改造html的内容,用了
htmlparser
绝对会忍不住称赞。由于
htmlparser
结构设计精良,所以扩展
htmlparser
非常便利。
htmlparser
实现从
网页
上抓取数据(收集)
http://luoye1989hzx.blog.163.com/blog/static/1699218892010828364066/ 本文引用自luoye1989《
htmlparser
实现从
网页
上抓取数据(收集)》 package parser; import java.io.BufferedReader; import java.io.Buffe...
python
获取
网页
标题
_python抽取指定url页面的title方法
今天简单
使用
了一下python的re模块和lxml模块,分别利用的它们提供的正则表达式和xpath来解析页面源码从
中
提取所需的title,xpath在完成这样的小任务上效率非常好,在这里之所以又
使用
了一下正则表达式是因为xpath在处理一些特殊的页面的时候会出现乱码的情况,当然这不是xpath的原因,而是页面本身编码,跟utf-8转码之间有冲突所致,这里看代码:# !/usr/bin/python...
python抓取
网页
标题
_python如何正确抓取
网页
标题
通过 urllib 将
网页
内容抓取下来,然后用正则表达式 re 模块将
标题
匹配出来,但是发现部分
标题
会出现问题,比如下面抓 Apple 的代码运行结果是App,测试发现匹配结果 m 是没有问题的,问题出现在了 strip() 这里。# -*- coding: utf-8 -*-import urllibimport reurl='http://apple.com'html = urllib.url...
Web 开发
81,094
社区成员
341,717
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章