java实现抓取网页数据?

rgh914 2008-05-22 02:03:35
java实现从网页上抓取数据后写入本地库,我用的是DOM文档对象模型来抓取数据的,数据已经取到,我想把他写入文本文件不知道怎么实现?还有就是分析结构化数据写入数据库该怎么来实现才好?
...全文
6629 31 打赏 收藏 转发到动态 举报
写回复
用AI写文章
31 条回复
切换为时间正序
请发表友善的回复…
发表回复
helongyangGecko 2011-08-22
  • 打赏
  • 举报
回复
我是 要抓取爱帮网数据 如何抓取
小营123 2011-06-07
  • 打赏
  • 举报
回复
我也很需要啊,谢谢了。
a0307101036 2010-06-22
  • 打赏
  • 举报
回复
是不是一定要在JDK环境下使用webharvest ?以下有个作业:Java网页内容提取系统
类型:桌面Application
要求:
A. 使用开源项目WebHarvest实现网页内容提取,该项目以XML作为动作配置文件。
B. 抓取以下两个网站的信息(并放在Access数据库中)
a) www.taobao.com
抓取 女鞋->帆布鞋中的所有商品的如下信息:
(1) 商品名(如“特价~爆款热卖 韩版时尚 高帮彩绘系带休闲帆布鞋 情侣鞋 3色”)
(2) 价格(如38.6元)
(3) 店家(如mofy1215)
(4) 封面图片和商品页内的图片,图片放在以该商品在数据库中的序号为目录名的目录中,并编号1.jpg,2.jpg….
b) http://finance.eastmoney.com/news/cpljh.html
把所有的评论作者、标题和正文内容抓到Access数据库中。

我是菜鸟啊,希望高手可以教教
anS_c 2010-03-10
  • 打赏
  • 举报
回复
学习一下.我也遇到这个问题了
chuxu000 2009-07-30
  • 打赏
  • 举报
回复
lucene 可以做爬虫抓取网页,有人感觉那方法有问题,不知道大家有没什么好的方法啊?
ziwei_1986 2009-05-07
  • 打赏
  • 举报
回复
up
wangcheng174 2009-05-07
  • 打赏
  • 举报
回复
有没有抓取博客简介的通用方法或框架什么的,急用,谢谢
hui5390094 2009-05-06
  • 打赏
  • 举报
回复
有源码么
showgood119 2008-05-30
  • 打赏
  • 举报
回复
lucene是开源的搜索引擎框架
xiaohf702 2008-05-29
  • 打赏
  • 举报
回复
好像有个开源项目lucene吧
liu_shui8 2008-05-26
  • 打赏
  • 举报
回复
其实用ajax发送一个页面请求,用responseText就可以取得返回的页面数据,完全用js就可以实现。

不知道LZ是不是有特殊的用途,谁有好的方法,可以来分享一下。
luoyun015 2008-05-26
  • 打赏
  • 举报
回复
public class ScrubSelectedWeb {
private final static String CRLF = System.getProperty("line.separator");
public static void main(String[] args){
try {
URL ur = new URL("http://php.weather.sina.com.cn/search.php?city=南充");
InputStream instr = ur.openStream();
String s, str;
BufferedReader in = new BufferedReader(new InputStreamReader(instr));
StringBuffer sb = new StringBuffer();
BufferedWriter out = new BufferedWriter(new FileWriter("D:/outPut.txt"));
while((s = in.readLine()) != null){
if(s.contains("Weather_TP"))
sb.append(s + CRLF);
}
System.out.println(sb);
str = new String(sb);
out.write(str);
out.close();
in.close();
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
基本能实现网页抓取,不过要手动输入URL,此外没有重构。只是一个简单的思路。
npuhetao 2008-05-26
  • 打赏
  • 举报
回复
re
[Quote=引用 14 楼 jason_kou 的回复:]
查下开源项目htmlparser,和java io,应该问题不大
建议楼主事先分析清楚要做什么
[/Quote]
strawren 2008-05-26
  • 打赏
  • 举报
回复
[Quote=引用 14 楼 jason_kou 的回复:]
查下开源项目htmlparser,和java io,应该问题不大
建议楼主事先分析清楚要做什么

[/Quote]
agree
hacker_piaoxue 2008-05-26
  • 打赏
  • 举报
回复
学习!顶!
jason_kou 2008-05-26
  • 打赏
  • 举报
回复
查下开源项目htmlparser,和java io,应该问题不大
建议楼主事先分析清楚要做什么
ORACLE800 2008-05-24
  • 打赏
  • 举报
回复
收藏下
tiyuzhongxin789 2008-05-23
  • 打赏
  • 举报
回复
有个网页抓取的框架 webharvest(http://web-harvest.sourceforge.net/),
抓取数据并写入文件都非常的简单,至于要写入数据库,可以先以sql的格式写入文件,然后执行读入这个文件执行sql。。
无敌小奇 2008-05-23
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 jdlsfl 的回复:]
将DOM文档转化成XML文件


Java code// 获得将DOM文档转化为XML文件的转换器,有类TransformerFactory
// 来实现,类Transformer实现转化API。
TransformerFactory tfactory = TransformerFactory.newInstance();
Transformer transformer = tfactory.newTransformer();
// 将DOM对象转化为DOMSource类对象,该对象表现为转化成别的表达形式的信息容器。
DOMSource source = new …
[/Quote]
cool_scorpion 2008-05-23
  • 打赏
  • 举报
回复
楼主,有个网页抓取的框架 webharvest(http://web-harvest.sourceforge.net/),
抓取数据并写入文件都非常的简单,至于要写入数据库,可以先以sql的格式写入文件,然后执行读入这个文件执行sql。。
加载更多回复(5)

58,454

社区成员

发帖
与我相关
我的任务
社区描述
Java Eclipse
社区管理员
  • Eclipse
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧