请教一个抓取页面的问题
我使用asphttp或者XMLHTTP抓取页面的时候,如果对方页面没有指定默认语言,那抓回来的页面中文就都是乱码
比如这个页面:http://www.booksky.biz/Chapter.aspx?BookID=33&SortID=400&ChapterID=18968
请问有办法解决吗?
谢谢
问题点数:50、回复次数:6Top
1 楼baisun(蟋蟀.NET)回复于 2005-04-03 23:20:26 得分 0
利用XMLHTTP无刷新获取数据.
利用XMLHTTP无刷新获取数据.
客户端和服务器端数据的交互有几种方法.
1.提交,通过<form></form>提交到服务器端.也称"有刷新"吧.
2.通过XMLHTTP无刷新提交到服务器端,并返回数据.也称"无刷新"吧.
利用XMLHTTP我们可以实现很多很强大的应用.这文章主要介绍它的一
些简单的应用.
附:因为XMLHTTP是IE5.0+支持的对象.所以你必须要有IE5.0+才能看到效果.
client.htm
<script language="JavaScript">
function GetResult(str)
{
/*
*--------------- GetResult(str) -----------------
* GetResult(str)
* 功能:通过XMLHTTP发送请求,返回结果.
* 参数:str,字符串,发送条件.
* 实例:GetResult(document.all.userid.value);
* author:wanghr100(灰豆宝宝.net)
* update:2004-5-27 19:02
*--------------- GetResult(str) -----------------
*/
var oBao = new ActiveXObject("Microsoft.XMLHTTP");
oBao.open("POST","server.asp?userid="+str,false);
oBao.send();
//服务器端处理返回的是经过escape编码的字符串.
document.all.username.value=unescape(oBao.responseText)
}
</script>
<input type="button" onclick="GetResult(document.all.userid.value)" value="Get"><br>
userid:<input type="text" name="userid"><br>
username:<input type="text" name="username">
server.asp 服务器端处理.
<% @Language="JavaScript" %>
<%
function OpenDB(sdbname)
{
/*
*--------------- OpenDB(sdbname) -----------------
* OpenDB(sdbname)
* 功能:打开数据库sdbname,返回conn对象.
* 参数:sdbname,字符串,数据库名称.
* 实例:var conn = OpenDB("database.mdb");
* author:wanghr100(灰豆宝宝.net)
* update:2004-5-12 8:18
*--------------- OpenDB(sdbname) -----------------
*/
var connstr = "Provider=Microsoft.Jet.OLEDB.4.0; Data Source="+Server.MapPath(sdbname);
var conn = Server.CreateObject("ADODB.Connection");
conn.Open(connstr);
return conn;
}
var sResult = "";
var oConn = OpenDB("data.mdb");
var userid = Request("userid");
var sql = "select username from users where userid='"+userid+"'";
var rs = oConn.Execute(sql);
if(!rs.EOF)
{
sResult = rs("username").Value;
}
else
{
//加入容错.2004-5-30 10:15
sResult = "Sorry,没有找到..."
}
//escape解决了XMLHTTP。中文处理的问题.
Response.Write(escape(sResult));
%>
数据库设计 data.mdb
表users.
字段
id 自动编号
userid 文本
username 文本
表:users 数据:
id userid username
1 wanghr100 灰豆宝宝.net
Top
2 楼sjt(掌握星光)回复于 2005-04-03 23:38:15 得分 0
在对方页面没有指定编码的情况下抓回的数据中的中文是乱码呀……用任何组件都是这样,xmlhttp中文处理程序我加上了的Top
3 楼poron9(上帝之手)回复于 2005-04-04 00:36:57 得分 0
你的结果读取不要使用responsetext,而是要用ResponseBody,把结果视用二进制流处理
然后用下面的函数进行内容转换就行。
示例:
Set Http = Server.CreateObject("MSXML2.XMLHttp")
Http.Open "POST", Url, False
Http.Send
ReSult = bytes2BSTR(Http.ResponseBody)
Response.Write ReSult
Function bytes2BSTR(vIn)
Dim strReturn
Dim I, ThisCharCode, NextCharCode
strReturn = ""
For I = 1 To LenB(vIn)
ThisCharCode = AscB(MidB(vIn, I, 1))
If ThisCharCode < &H80 Then
strReturn = strReturn & Chr(ThisCharCode)
Else
NextCharCode = AscB(MidB(vIn, I + 1, 1))
strReturn = strReturn & Chr(CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
I = I + 1
End If
Next
bytes2BSTR = strReturn
End Function
Top
4 楼sjt(掌握星光)回复于 2005-04-04 16:08:39 得分 0
这样做还是不行的……
http://www.booksky.biz/Book.aspx?BookID=244
你试试看采集这个页面,返回来的还是乱码……Top
5 楼poron9(上帝之手)回复于 2005-04-07 13:18:33 得分 50
Set Http = Server.CreateObject("MSXML2.XMLHttp")
Http.Open "GET","http://www.booksky.biz/Book.aspx?BookID=244",False
Http.Send
ReSult = Http.ResponseText
Response.Write ReSult
Response.end
这样就不是乱码了Top
6 楼sjt(掌握星光)回复于 2005-04-17 00:23:10 得分 0
谢谢……你真是个天才……Top




