怎样分析HTML源文件
从中文YAHOO搜索
http://cn.websearch.yahoo.com/search/web_cn?p=弟兄
得到此页面的源文件
怎样把页面搜索结果的链接和描述说明分离出来(去掉广告内容)
最好按一整体放入表格中
问题点数:100、回复次数:5Top
1 楼sutao0604(benny lee)回复于 2003-06-01 12:02:27 得分 0
呵,用下IE 6.0 的FRONTPAGE 编辑QQ44292362Top
2 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2003-06-01 12:03:55 得分 50
这样我们就可以通过写一个函数得到一个页面的link了
void GetHtmlText(TStringList *HtmlString)
{
IHTMLDocument2 *pHTMLDoc;
if(SUCCEEDED(HrGetDoc(&pHTMLDoc)))
{
IHTMLElement *pElement;
if(SUCCEEDED(pHTMLDoc->get_link(pElement)))//手上没有msdn你查一下
{
BSTR bsStr;
pElement->get_InnerHTML(&bsStr);
try
{
TStringList *tempstr;
tempstr->Strings.Format("%s",(LPCTSTR)bstStr);
HtmlString=tempstr;
}
__finally
{
delete tempstr;
}
SysFreeString(bsStr);
pElement->Release();
}
}
pHTMLDoc->Release();
}
上面的pElement对象的get_link是关键函数Top
3 楼bbonline()回复于 2003-06-01 14:56:45 得分 0
我需要链接的描述说明
如何得到
另外我要过滤那些广告连接啊Top
4 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2003-06-01 17:11:47 得分 50
你看看msdn
手头真的没有
不过大体的方向可以给你
这是baidu的<body bgcolor=#ffffff text=#000000 link=#261CDC topmargin=0 bottommargin=0 leftmargin=0 rightmargin=0>
<table width=100% border=0>
<form action="/baidu"><tr><td width=244><a href="http://www.baidu.com/"><img src="http://img.baidu.com/img/yy.gif" border="0"></a>
<td valign=middle><script language="JavaScript">
你应该分离出上面的form部分
这个方法在msdn上可以查到
然后要得到某个table内的InnerHtml
等等
Top
5 楼bbonline()回复于 2003-06-01 19:39:13 得分 0
哎,这东西俺不熟悉的
看上面的代码只是取出了所有的LINK
Top




