一个正则表达式的问题,解决后马上结贴
一个网页的原码里有如下内容:
<UL><table cellspacing=0 cellpadding=5 width="60%" border=0 valign="top">
<tbody>
<tr>
<td valign=top><a class=r href="http://page.china.alibaba.com/ali/news/detail/2/5275052.html" target=_blank><font size=-1><b>2003年秋播三麦新品种推介</b></font></a>
<font color=#6f6f6f> Alibaba行业资讯 2003-11-2 00:00 </font><br>
<font size=-1>...扬麦11号 扬麦11号是江苏里下河地区农科所..
</td>
</tr>
</tbody>
</table>
<br>
.......
.......
<table cellspacing=0 cellpadding=5 width="60%" border=0 valign="top">
<tbody>
<tr>
<td valign=top align=middle width=80 height="96">
<table cellspacing=0 cellpadding=5 align=right border=0>
<tbody>
<tr>
<td valign=top align=middle width=90 height=90>
<div align=center><a class=r href="http://news.cau.edu.cn/show.php?id=0000012997" target=_blank>
<img src="/ni?u=http://news.cau.edu.cn/news/031023xd02.jpg" border=0></a></div>
</td>
</tr>
</tbody>
</table>
</td>
<td valign=top><a class=r href="http://news.cau.edu.cn/show.php?id=0000012997" target=_blank><font size=-1><b>信电学院隆重举行中国农电科教学术年会(图文) </b></font></a>
<font color=#6f6f6f> 中国农大新闻网 2003-10-23 18:38 </font><br>
<font size=-1>...小康社会的需求。 参加此次学术年会的还有浙江...
</td>
</tr>
</tbody>
</table>
<br>
</ul>
在原代码里有一个<UL>...</ul>的单元,它里面有很多的相同的单元,
如:<table cellspacing=0 cellpadding=5 width="60%" border=0 valign="top">...</table><br>
我现在想把这些相似单元里的某些内容提出,
有以下内容需要提取:
http://page.china.alibaba.com/ali/news/detail/2/5275052.html
2003年秋播三麦新品种推介
Alibaba行业资讯 2003-11-2 00:00
...扬麦11号 扬麦11号是江苏里下河地区农科所..
....
....
http://news.cau.edu.cn/show.php?id=0000012997
信电学院隆重举行中国农电科教学术年会(图文)
中国农大新闻网 2003-10-23 18:38
...小康社会的需求。 参加此次学术年会的还有浙江...
请各位兄弟帮忙想想,看能否给个正则表达式?我自己试过,可总是有问题!
问题点数:100、回复次数:17Top
1 楼cheng715(田野的羽毛)回复于 2003-11-02 15:46:26 得分 0
自己先UP!Top
2 楼cheng715(田野的羽毛)回复于 2003-11-02 21:43:49 得分 0
没人呀?大家过来看看吧!Top
3 楼sharpwind(大刀向鬼子头上砍去)回复于 2003-11-02 22:01:08 得分 0
什么叫正则表达式呀?Top
4 楼cheng715(田野的羽毛)回复于 2003-11-03 08:47:27 得分 0
继续up,大家加油,!Top
5 楼fletcher(fletcherx)回复于 2003-11-03 09:30:18 得分 0
搞不定Top
6 楼lkenshin(我来帮你up)回复于 2003-11-03 09:41:17 得分 40
楼主,首先给你一个建议:
不要期望对html代码使用正则表达式来做字符匹配
我以前曾经做过,弄了半天自己也没搞定,结果去java.sun.com的论坛上去
发帖子,求救,上面就有一个人,也是这么劝我的.
在到后来,就放弃了想用regex来匹配html的做法,
如果你真的想要做,可以试着用StringTokenizer来做,不过要求网页的内容不能变化,否则网页每变一次,你的程序就要写一次.
Top
7 楼cheng715(田野的羽毛)回复于 2003-11-03 15:59:43 得分 0
lkenshin(我来帮你up),谢谢你的建议!我也很有同感!我做的系统最近的问题就是因为网页的变化才使得重写regex!不过现在还得写,希望以后能有好办法解决这个问题!Top
8 楼cheng715(田野的羽毛)回复于 2003-11-04 14:01:41 得分 0
怎么没人呀?Top
9 楼junyi2003(超级菜鸟)回复于 2003-11-04 15:23:04 得分 0
html代码有时候我看得头疼.维护起来很麻烦Top
10 楼cheng715(田野的羽毛)回复于 2003-11-05 18:18:18 得分 0
真的没人能解答吗?等待。。。Top
11 楼nako_ruru(娜可露露)回复于 2003-11-07 22:37:42 得分 40
org.xml.sax.helpers.DefaultHandler,
org.xml.sax.ErrorHanlder
XML DTDTop
12 楼cheng715(田野的羽毛)回复于 2003-11-10 19:38:52 得分 0
nako_ruru(娜可露露) ,你能再具体点吗?Top
13 楼xwOnlyU(诸神的黄昏)回复于 2003-11-10 20:12:24 得分 0
头晕Top
14 楼cheng715(田野的羽毛)回复于 2003-11-30 11:52:47 得分 0
没人能解答?Top
15 楼oyjjj(jj)回复于 2003-12-01 21:50:05 得分 10
老兄,这是完全可以的,我现在就在做!Top
16 楼oyjjj(jj)回复于 2003-12-01 21:52:12 得分 10
当然,除非网页不常变化,否则^^^^^^!Top
17 楼cheng715(田野的羽毛)回复于 2003-12-04 09:17:34 得分 0
to oyjjj(jj) ,的确是这样,用正则简单但对网页变化的适用性不强!我也是在尝试用其他方式解决,不知道朋友有什么高见?Top




