正则 在a标签中 获取 特定类型的url 求救

lihui_life 2011-05-23 09:37:09
各位,需求是这样的,我要在源码中获取 所有a标签中 指定 域名的 url 连接,比如 获取所有 域名http://jiancai.xyecom.com/.....aspx 的页面
或者直接以“/” 开头的 url,后缀名可以是aspx,html


<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">\r\n<html xmlns=\"http://www.w3.org/1999/xhtml\">\r\n<head>\r\n <title>纵横B2B V3.0演示站</title>\r\n\t<meta name=\"description\" content=\"纵横B2B,行业网站,电子商务系统,商务程序\" />\r\n\t<meta name=\"keywords\" content=\"纵横B2B,行业网站,电子商务系统,商务程序\" />\r\n\t<meta name=\"robots\" content=\"all\" />\r\n\t<meta http-equiv=\"Content-Type\" content=\"text/html;\" charset=\"gb2312\" />\t\r\n\t<link rel=\"stylesheet\" href=\"http://jiancai.xyecom.com/common/css/XYLib.css\" type=\"text/css\" media=\"screen\" />\r\n\t<link href=\"http://jiancai.xyecom.com/templates/default/css/global.css\" rel=\"stylesheet\" type=\"text/css\" />\r\n\t<link href=\"http://jiancai.xyecom.com/templates/default/css/Survey.css\" rel=\"stylesheet\" type=\"text/css\" />\r\n\t<script type=\"text/javascript\" src=\"http://jiancai.xyecom.com/templates/default/js/search.js\" language=\"javascript\"></script>\r\n\t<script type=\"text/javascrip
t\" src=\"http://jiancai.xyecom.com/common/js/base.js\" language=\"javascript\"></script>\r\n\t<script type=\"text/javascript\" src=\"http://jiancai.xyecom.com/templates/default/js/login.js\" language=\"javascript\"></script>\r\n <script type=\"text/javascript\" src=\"http://jiancai.xyecom.com/templates/default/js/validate.js\" language=\"javascript\"></script>\r\n<link href=\"http://jiancai.xyecom.com/templates/default/css/index.css\" rel=\"stylesheet\" type=\"text/css\" />\t\r\n</head>\r\n<body>\r\n <div id=\"wrapper\">\r\n\t<div id=\"hd_info\">\r\n\t\t<div id=\"cnts\">\r\n\t\t\t<div id=\"site_cang\">\r\n\t\t\t\t<img src=\"http://jiancai.xyecom.com/templates/default/images/ico_idx.gif\" width=\"16\" height=\"16\" alt=\"\" align=\"absmiddle\" />\r\n\t\t\t\t<a href=# onClick=\"this.style.behavior='url(#default#homepage)';this.setHomePage('http://jiancai.xyecom.com/');\">设为首页</a>   \r\n\t\t\t\t<img src=\"http://jiancai.xyecom.com/templates/default/images/ico_cang.gif\" width=\"16\" height=\"16\"
alt=\"\" align=\"absmiddle\" />\r\n\t\t\t\t<a style=\"CURSOR: hand\" onClick=\"window.external.addFavorite('http://jiancai.xyecom.com/','纵横易商软件')\" >加为收藏</a>\r\n\t\t\t</div>\r\n\t\t\t<div id=\"log_info\">\r\n\t\t\t<div id=\"login\">\r\n\t\t\t\t用户名:<input type=\"text\" class=\"com\" name=\"top_username\" id=\"top_username\" onkeydown =\"_xy_KeyNext('top_password');\"/>\r\n\t\t\t 密码:<input type=\"password\" name=\"top_password\" class=\"com\" id=\"top_password\" onkeydown =\"_xy_KeyPress('_btnTopLogin');\"/>\r\n\t\t\t\t<input id=\"_btnTopLogin\" type=\"button\" class=\"top_login\" onclick =\"return xy_TopLogin();\"/>\r\n\t\t\t\t  <a href=\"http://jiancai.xyecom.com/register.aspx\">注册</a> | <a href=\"http://jiancai.xyecom.com/getPassword.aspx\">忘记密码</a> | <a href=\"##\">[VIP会员]</a> | <a href=\"##\">帮助中心</a>\r\n   |  <a href=\"/quickbuy.aspx\" target=\"_blank\" style=\"color:Red;\">快速发布测试</a>|  \r\n <a href=\"/download/index.aspx\" target=\"_blan
k\" style=\"color:Red;\">下载模块</a>|  \r\n <a href=\"/search/price_search.aspx\" target=\"_blank\" style=\"color:Red;\">报价搜索</a>|  \r\n <a href=\"http://jiancai.xyecom.com/rssinfo.aspx\">RSS信息订阅</a>\r\n <a href=\"http://jiancai.xyecom.com/common/_GetBusinessInformation.aspx\">火车头接口页面</a>\r\n\t\t\t</div>\t\r\n\t\t\t</div>\r\n\t\t\t<span id=\"logined\" style=\"display:none;\">\r\n 欢迎您,<font id=\"uname\"></font> |\r\n <a id=\"ucenter\">我的用户中心</a>|\r\n <a href=\"http://jiancai.xyecom.com/logout.aspx\">[退出]</a>\r\n <font id=\"logined_user\" style=\"display:none;\">企业用户相关内容</font>\r\n <font id=\"logined_person\" style=\"display:none;\">个人用户相关内容</font>\r\n </span>\r\n\t\t\t<div class=\"clr\"></div>\r\n\t\t</div>\r\n\t</div>\r\n\t<div class=\"clr\"></div>\r\n\t<script>Login2();</script>\r\n<div id=\"header\">\r\n <div id=\"local_channel\">\r\n <span class=\"fright
\"><a href=\"#\" onclick=\"div_opennew('_xy_div_allarea',200,100);return false;\">\r\n 所有地区</a>\r\n <div id=\"_xy_div_allarea\" style=\"display: none\" onmouseover=\"div_mouseover('_xy_div_allarea')\"\r\n onmouseout=\"div_mouseout('_xy_div_allarea');\">\r\n <a href=\"\">山东</a> <a href=\"\">四川</a> <a href=\"\">陕西</a> <a href=\"\">广东</a>\r\n </div>\r\n </span><strong>地区频道:</strong><a href='http://jiancai.xyecom.com/area/shandong-index.aspx' target='_blank'>山东农业网</a> | <a href=\"#\" class=\"waiting\" title=\"暂未开通\">\r\n 河南农业网</a> | <a href=\"#\" class=\"waiting\" title=\"暂未开通\">湖南农业网</a> | <a href=\"#\" class=\"waiting\"\r\n title=\"暂未开通\">沈阳农业网</a> | <a href=\"#\" class=\"waiting\" title=\"暂未开通\">广东农业网</a>\r\n | <a href=\"#\" class=\"waiting\" title=\"暂未开通\">四川农业网</a>\r\n </div>\r\n <div class=\"clr\">\r\n </div>\r\n <div id=\"mains\">\r\n <div id=\"left\">\r\n <div id=\"logo\">\r\
n <a href=\"/\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/logo.gif\" width=\"219\"\r\n height=\"50\" alt=\"\" border=\"0\" /></a></div>\r\n <div id=\"site_tube\">\r\n [   <a href=\"\" class=\"orange\">中国农业网主站</a>   <a href=\"#\" onclick=\"div_opennew('_xy_div_alltrade',200,100);return false;\"\r\n class=\"gray\">切换其它站点</a> <a href=\"#\" onclick=\"div_opennew('_xy_div_alltrade',200,100);return false;\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/ico_site_chg.gif\"\r\n width=\"11\" height=\"11\" alt=\"\" align=\"absmiddle\" /></a>   ]\r\n <div id=\"_xy_div_alltrade\" style=\"display: none\" onmouseover=\"div_mouseover('_xy_div_alltrade')\"\r\n </span></a></li>\r\n\t\t\t\t<li><a id=\"_xymenu_offer\" href=\"http://jiancai.xyecom.com/offer/index.aspx\"><span>产品中心</span></a></li>\r\n\t\t\t\t<li><a id=\"_xymenu_investment\" href=\"http://jiancai.xyecom.com/investment/index.aspx\"><span>招商加盟</span></a></li>\r\n\t\t\t\t<li><a id=\"_xymenu_company\" href=\"http://jiancai.xyecom.com/company/index.aspx\"><span>行业公司</span></a></li>\r\n\t\t\t\t<li><a id=\"_xymenu_job\" href=\"http://jiancai.xyecom.com/job/index.aspx\"><span>人才招聘</span></a
...全文
397 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
我姓区不姓区 2011-05-23
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 lihuioooo 的回复:]

测试,大哥的代码没问题,假如我想直接拿到这个url 地址该怎么写呢?
引用 1 楼 ojlovecd 的回复:
C# code

foreach (Match m in Regex.Matches(html, @"<a[^>]+href=(\\?['""]?)((http://jiancai.xyecom.com)*/[^\s]+(aspx|html))\1"))
Console.Wr……
[/Quote]
m.Groups[2].Value取得的就是url地址啊
q107770540 2011-05-23
  • 打赏
  • 举报
回复
void Main()
{
string str="<li><a href=\"#\" onclick=\"xy_SelectSearchMenu('品牌','brand','');\">品牌</a></li>\r\n\t\t\t\t\t <li><a href=\"#\" onclick=\"xy_SelectSearchMenu('展会','exhibition','');\">展会</a></li>\r\n\t\t\t\t\t</ul>\r\n\t\t\t\t</div>\r\n\t\t\t\t<input type=\"hidden\" id=\"xy_FlagName\" value=\"offer\"/>\r\n\t\t\t\t<input type=\"hidden\" id=\"xy_InfoType\" value=\"sell\"/>\r\n\t\t\t\t<button value=\"搜索\" id=\"DoSearch\" name=\"DoSearch\" class=\"btsearch\" onclick=\"xy_search();\"/>搜索</button>\r\n\t\t\t\t<a href=\"/search/advanced_search.aspx\" class=\"black\">[高级搜索]</a>\r\n\t\t\t\t<a href=\"http://jiancai.xyecom.com/contributor.aspx\" class=\"black\">[投稿]</a>\r\n\t\t\t\t<a href=\"http://jiancai.xyecom.com/post.aspx\" class=\"black\">[发布信息]</a>\r\n\t\t\t\t<a href=\"http://jiancai.xyecom.com/baike/index.aspx\" class=\"black\">[百科]</a>\r\n\t\t\t</div>\r\n\t\t\t<div id=\"sch_bnr\"><a href=\"\"><img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_5.jpg\" width=\"170\" height=\"77\" alt=\"\" /></a></div>\r\n\t\t\t<div id=\"hot_schs\">\r\n\t\t\t\t<ul>\r\n\t\t\t\t\t<li><strong>热门搜索词:</strong></li>\r\n\t\t\t\t\t<li>\r\n\t\t\t\t\t\t<ul>\r\n\t\t\t\t\t\t\t<li><a target=\"_blank\" href=\"/search/seller_search-offer--花花-------.aspx\">花花</a></li><li><a target=\"_blank\" href=\"/search/seller_search-offer--方法-------.aspx\">方法</a></li><li><a target=\"_blank\" href=\"/search/seller_search-offer--huahua-------.aspx\">huahua</a></li><li><a target=\"_blank\" href=\"/search/seller_search-offer--ggf-------.aspx\">ggf</a></li><li><a target=\"_blank\" href=\"/search/seller_search-offer--ggf,r6-------.aspx\">ggf,r6</a></li>\r\n\t\t\t\t\t\t</ul>\r\n\t\t\t\t\t</li>\r\n\t\t\t\t</ul>\r\n\t\t\t</div>\r\n\t\t</div>\r\n\t</div>\r\n <div id=\"best_cmpy\">\r\n <ul>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_1.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_2.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_3.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_4.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_3.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_4.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_1.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_2.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_1.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n <li><a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_2.jpg\" width=\"191\"\r\n height=\"62\" alt=\"\" /></a></li>\r\n </ul>\r\n </div>\r\n <div id=\"idx_cnt1\">\r\n <div id=\"left\">\r\n <div class=\"top spacer\">\r\n </div>\r\n <div class=\"main\">\r\n <div class=\"tit\">\r\n <h2>\r\n <span>热点信息</span></h2>\r\n </div>\r\n <ul class=\"hinfo-text\">\r\n <li><a href=\"http://jiancai.xyecom.com/news/channel-5.aspx\">[营销学院]</a> <a href=\"http://jiancai.xyecom.com/news/content-10.aspx\"><font style=color:#008000;font-weight:bold;font-style:italic;text-decoration:underline>test1323232</font></a></li><li><a href=\"http://jiancai.xyecom.com/news/channel-3.aspx\">[市场分析]</a> <a href=\"http://jiancai.xyecom.com/news/content-8.aspx\">测试测试测试</a></li>\r\n </ul>\r\n <ul class=\"hinfo-img\">\r\n <li><a href=\"#\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_6.jpg\" width=\"118\"\r\n height=\"42\" alt=\"\" /><span>沈阳市金山技术有限公司</span></a></li>\r\n <li><a href=\"#\" class=\"orange\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_pic_7.jpg\" width=\"118\"\r\n height=\"42\" alt=\"\" /><span>华北造纸生产基地</span></a></li>\r\n </ul>\r\n <div class=\"clr\">\r\n </div>\r\n </div>\r\n <div class=\"btm spacer\">\r\n </div>\r\n </div>\r\n <div id=\"mid\">\r\n <a href=\"\">\r\n <img src=\"http://jiancai.xyecom.com/templates/default/images/temp_bnr_2.jpg\" width=\"360\"\r\n height=\"194\" alt=\"\" /></a>\r\n </div>\r\n <div id=\"right\">\r\n\t<!--未登录显示-->\r\n\t<div class=\"B_8 r\" style=\"display:none;\" id=\"xy_login_nologin\">\r\n\t\t<div class=\"B_8\">\r\n\t\t\t<div class=\"B_9\">立即登录</div>\r\n\t\t\t<div class=\"B_10\"><a class=\"white\" href=\"http://jiancai.xyecom.com/user\">进入商务管理后台</a></div>\r\n\t\t</div>\r\n\t\t<div class=\"B_11_2 clr\">\r\n\t\t\t<div class=\"B_12\">\r\n\t\t\t\t<div class=\"B_12\">\r\n\t\t\t\t\t<div class=\"B_13\">用户名:</div>\r\n\t\t\t\t\t<div class=\"B_15\"><input type=\"text\" tabindex=\"1\" class=\"tf1\" name=\"_lbox_username\" id=\"_lbox_username\" onkeydown =\"_xy_KeyPress('_btnBoxLogin');\"/></div>\r\n\t\t\t\t</div>\r\n\t\t\t\t<div class=\"B_12\">\r\n\t\t\t\t\t<div class=\"B_13\">密 码:</div>\r\n\t\t\t\t\t<div class=\"B_15\"><input type=\"password\" tabindex=\"2\" class=\"tf1\" name=\"_lbox_password\" id=\"_lbox_password\" onkeydown =\"_xy_KeyPress('_btnBoxLogin');\"/></div>\r\n\t\t\t\t</div>\r\n\t\t\t\t<div class=\"B_16 clr\" style=\"padding-top:5px;\">\r\n\t\t\t\t <input id=\"_btnBoxLogin\" height=\"29\" width=\"108\" type=\"image\" src=\"http://jiancai.xyecom.com/templates/default/images/dabn6.gif\" onclick=\"return xy_BoxLogin();\"/> \r\n\t\t\t\t <a href=\"http://jiancai.xyecom.com/getpassword.aspx\">忘记密码?</a>\r\n\t\t\t\t</div>\r\n\t\t\t</div>\r\n\t\t\t<div class=\"login_links\">\r\n\t\t\t\t<ul class=\"service\">\r\n\t\t\t\t\t<li class=\"s_1\"><a href=\"http://jiancai.xyecom.com/user/\"><strong>发布信息</strong></a></li>\r\n\t\t\t\t\t<li class=\"s_2\"><a href=\"http://jiancai.xyecom.com/register.aspx\"><strong>注册会员</strong></a></li>\r\n\t\t\t\t</ul>\r\n\t\t\t\t<div class=\"clr\"></div>\r\n\t\t\t</div>\r\n\t\t</div>\r\n\t</div>\r\n <!--登录后显示-->\r\n\t<div class=\"B_8 r\" id=\"xy_login_logined\">\r\n\t\t<div class=\"B_8\">\r\n\t\t\t<div class=\"B_9\">欢迎登录</div>\r\n\t\t\t<div class=\"B_10\"><a class=\"white\" href=\"\" id=\"_lbox_ucenter\">进入商务管理后台</a></div>\r\n\t\t</div>\r\n\t\t<div class=\"B_11 clr\">\r\n\t\t\t<div class=\"E_1\"><font class=\"huei14\">欢迎您!</font> <span id=\"_lbox_uname\"></span> [<a target=\"_self\" class=\"hui12i\" href=\"http://jiancai.xyecom.com/logout.aspx\">退出</a>]</div>\r\n\t\t\t<div class=\"B_12 clr\">\r\n\t\t\t\t<div class=\"E_6\"><a href=\"http://jiancai.xyecom.com/user/infoselect.aspx\">发布产品</a> | <a href=\"http://jiancai.xyecom.com/user/addnews.aspx\">发布资讯</a> | <a href=\"http://jiancai.xyecom.com/user/receivemessagelist.aspx\">我的留言</a></div>\r\n\t\t\t\t<div style=\"padding-top:20px;padding-left: 37px;\" class=\"E_6 mt10\"><a href=\"/user/\"";
foreach(Match m in Regex.Matches(str,@"(?i)<a[^>]*href=([""'])?(?<url>(http://jiancai.xyecom.com)?/[^""']+\.(aspx|html))\1[^>]*>[^<>]*</a>"))
{
Console.WriteLine(m.Groups["url"].Value);
}

/*
/search/advanced_search.aspx
http://jiancai.xyecom.com/contributor.aspx
http://jiancai.xyecom.com/post.aspx
http://jiancai.xyecom.com/baike/index.aspx
/search/seller_search-offer--花花-------.aspx
/search/seller_search-offer--方法-------.aspx
/search/seller_search-offer--huahua-------.aspx
/search/seller_search-offer--ggf-------.aspx
/search/seller_search-offer--ggf,r6-------.aspx
http://jiancai.xyecom.com/news/channel-5.aspx
http://jiancai.xyecom.com/news/channel-3.aspx
http://jiancai.xyecom.com/news/content-8.aspx
http://jiancai.xyecom.com/getpassword.aspx
http://jiancai.xyecom.com/logout.aspx
http://jiancai.xyecom.com/user/infoselect.aspx
http://jiancai.xyecom.com/user/addnews.aspx
http://jiancai.xyecom.com/user/receivemessagelist.aspx
*/
}
lihui_life 2011-05-23
  • 打赏
  • 举报
回复
测试,大哥的代码没问题,假如我想直接拿到这个url 地址该怎么写呢?
[Quote=引用 1 楼 ojlovecd 的回复:]
C# code

foreach (Match m in Regex.Matches(html, @"<a[^>]+href=(\\?['""]?)((http://jiancai.xyecom.com)*/[^\s]+(aspx|html))\1"))
Console.WriteLine(m.Groups[2].Value);

……
[/Quote]
我姓区不姓区 2011-05-23
  • 打赏
  • 举报
回复

foreach (Match m in Regex.Matches(html, @"<a[^>]+href=(\\?['""]?)((http://jiancai.xyecom.com)*/[^\s]+(aspx|html))\1"))
Console.WriteLine(m.Groups[2].Value);

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧