社区
Eclipse
帖子详情
java实现抓取网页数据?
rgh914
2008-05-22 02:03:35
java实现从网页上抓取数据后写入本地库,我用的是DOM文档对象模型来抓取数据的,数据已经取到,我想把他写入文本文件不知道怎么实现?还有就是分析结构化数据写入数据库该怎么来实现才好?
...全文
6629
31
打赏
收藏
java实现抓取网页数据?
java实现从网页上抓取数据后写入本地库,我用的是DOM文档对象模型来抓取数据的,数据已经取到,我想把他写入文本文件不知道怎么实现?还有就是分析结构化数据写入数据库该怎么来实现才好?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
31 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
helongyangGecko
2011-08-22
打赏
举报
回复
我是 要抓取爱帮网数据 如何抓取
小营123
2011-06-07
打赏
举报
回复
我也很需要啊,谢谢了。
a0307101036
2010-06-22
打赏
举报
回复
是不是一定要在JDK环境下使用webharvest ?以下有个作业:Java网页内容提取系统
类型:桌面Application
要求:
A. 使用开源项目WebHarvest实现网页内容提取,该项目以XML作为动作配置文件。
B. 抓取以下两个网站的信息(并放在Access数据库中)
a) www.taobao.com
抓取 女鞋->帆布鞋中的所有商品的如下信息:
(1) 商品名(如“特价~爆款热卖 韩版时尚 高帮彩绘系带休闲帆布鞋 情侣鞋 3色”)
(2) 价格(如38.6元)
(3) 店家(如mofy1215)
(4) 封面图片和商品页内的图片,图片放在以该商品在数据库中的序号为目录名的目录中,并编号1.jpg,2.jpg….
b) http://finance.eastmoney.com/news/cpljh.html
把所有的评论作者、标题和正文内容抓到Access数据库中。
我是菜鸟啊,希望高手可以教教
anS_c
2010-03-10
打赏
举报
回复
学习一下.我也遇到这个问题了
chuxu000
2009-07-30
打赏
举报
回复
lucene 可以做爬虫抓取网页,有人感觉那方法有问题,不知道大家有没什么好的方法啊?
ziwei_1986
2009-05-07
打赏
举报
回复
up
wangcheng174
2009-05-07
打赏
举报
回复
有没有抓取博客简介的通用方法或框架什么的,急用,谢谢
hui5390094
2009-05-06
打赏
举报
回复
有源码么
showgood119
2008-05-30
打赏
举报
回复
lucene是开源的搜索引擎框架
xiaohf702
2008-05-29
打赏
举报
回复
好像有个开源项目lucene吧
liu_shui8
2008-05-26
打赏
举报
回复
其实用ajax发送一个页面请求,用responseText就可以取得返回的页面数据,完全用js就可以实现。
不知道LZ是不是有特殊的用途,谁有好的方法,可以来分享一下。
luoyun015
2008-05-26
打赏
举报
回复
public class ScrubSelectedWeb {
private final static String CRLF = System.getProperty("line.separator");
public static void main(String[] args){
try {
URL ur = new URL("http://php.weather.sina.com.cn/search.php?city=南充");
InputStream instr = ur.openStream();
String s, str;
BufferedReader in = new BufferedReader(new InputStreamReader(instr));
StringBuffer sb = new StringBuffer();
BufferedWriter out = new BufferedWriter(new FileWriter("D:/outPut.txt"));
while((s = in.readLine()) != null){
if(s.contains("Weather_TP"))
sb.append(s + CRLF);
}
System.out.println(sb);
str = new String(sb);
out.write(str);
out.close();
in.close();
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
基本能实现网页抓取,不过要手动输入URL,此外没有重构。只是一个简单的思路。
npuhetao
2008-05-26
打赏
举报
回复
re
[Quote=引用 14 楼 jason_kou 的回复:]
查下开源项目htmlparser,和java io,应该问题不大
建议楼主事先分析清楚要做什么
[/Quote]
strawren
2008-05-26
打赏
举报
回复
[Quote=引用 14 楼 jason_kou 的回复:]
查下开源项目htmlparser,和java io,应该问题不大
建议楼主事先分析清楚要做什么
[/Quote]
agree
hacker_piaoxue
2008-05-26
打赏
举报
回复
学习!顶!
jason_kou
2008-05-26
打赏
举报
回复
查下开源项目htmlparser,和java io,应该问题不大
建议楼主事先分析清楚要做什么
ORACLE800
2008-05-24
打赏
举报
回复
收藏下
tiyuzhongxin789
2008-05-23
打赏
举报
回复
有个网页抓取的框架 webharvest(http://web-harvest.sourceforge.net/),
抓取数据并写入文件都非常的简单,至于要写入数据库,可以先以sql的格式写入文件,然后执行读入这个文件执行sql。。
无敌小奇
2008-05-23
打赏
举报
回复
[Quote=引用 6 楼 jdlsfl 的回复:]
将DOM文档转化成XML文件
Java code// 获得将DOM文档转化为XML文件的转换器,有类TransformerFactory
// 来实现,类Transformer实现转化API。
TransformerFactory tfactory = TransformerFactory.newInstance();
Transformer transformer = tfactory.newTransformer();
// 将DOM对象转化为DOMSource类对象,该对象表现为转化成别的表达形式的信息容器。
DOMSource source = new …
[/Quote]
cool_scorpion
2008-05-23
打赏
举报
回复
楼主,有个网页抓取的框架 webharvest(http://web-harvest.sourceforge.net/),
抓取数据并写入文件都非常的简单,至于要写入数据库,可以先以sql的格式写入文件,然后执行读入这个文件执行sql。。
加载更多回复(5)
java
抓取
网页
数据
实现
java
抓取
网页
数据
实现
Java
实现
网页
抓取
简单的
实现
网页
数据
抓取
的demo。
java
实现
【
数据
分析实战训练营】互联网行业业务指标及行业
数据
分析
国家电网招标项目分析1. 通过多线程
抓取
招标
数据
2. 精准提取需求目标
数据
3.
数据
解压标注,IO优化4.
数据
清洗5. 分析标的
数据
,招标发布日期频率,标的物金额,标的物类型6.
数据
可视化展示7. 撰写分析报告
java
抓取
任何指定
网页
的
数据
通过
java
抓取
任何指定
网页
的
数据
,里面介绍了
java
如何
实现
抓取
技术,
抓取
指定的
网页
数据
并解析
用
java
实现
爬虫
抓取
网页
中的表格
数据
功能源码
使用
java
代码基于MyEclipse开发环境
实现
爬虫
抓取
网页
中的表格
数据
,将
抓取
到的
数据
在控制台打印出来,需要后续处理的话可以在打印的地方对
数据
进行操作。包解压后导入MyEclipse就可以使用,在TestCrawTable中右键运行就能看到
抓取
到的
数据
。其他的调试可以自行修改。
Eclipse
58,454
社区成员
49,450
社区内容
发帖
与我相关
我的任务
Eclipse
Java Eclipse
复制链接
扫一扫
分享
社区描述
Java Eclipse
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章