如何编写实现站点爬行的程序?急!急!急!
问题点数:118、回复次数:5Top
1 楼Linus2000(陈年老酒)回复于 2001-02-16 15:51:00 得分 0
用什么语言都可以Top
2 楼kaede(枫)回复于 2001-02-16 16:33:00 得分 52
去看希望出的"Programming Bots,Spiders,and Intelligent Agents in Microsoft Visual C++" (自动,查询和智能代理程序设计) RMB 66.0 有例子Top
3 楼panda_w(好想睡啊!)回复于 2001-02-16 19:41:00 得分 22
找个网页看看源码不是行了,Top
4 楼sky100(大海边的沙滩上捡贝壳的孩子)回复于 2001-02-16 20:57:00 得分 22
呵呵!我也考虑过这类程序,难在算法上
主要可以抽象成一个二叉树的节点遍历问题
但需要很复杂的逻辑设定,在设计时还需考虑很多其他因素,例如坏链接、镜像网站等
资源占用的分配更是重中之重
关键在于这个二叉树的层数不固定
所以我的初步看法是提取连结时,进行语法分析,判断是否是本站或本地连结(镜像网站的判断很讨厌),如是,转入本站处理程序。(这个设计还比较简单)
但外部连结处理则很麻烦,目前没有很好的算法,我又没法偷出百度、google的spider的源代码。
呵呵!希望对你能有所帮助。Top
5 楼bigjim(飞翔鸟)回复于 2001-02-16 22:43:00 得分 22
看看ssnag的代码Top




