CSDN首页 空间 新闻 论坛 Blog 下载 读书 网摘 搜索 .NET Java 视频 接项目 求职 在线学习 买书 程序员 通知
不看会后悔的Windows XP之经验谈 简单快捷DIY实用家庭影院
CSDN社区
搜索 收藏 打印 关闭
CSDN社区 >  Linux/Unix社区 >  程序开发区

最近我研究 全文搜索引擎的心得

楼主datland(天涯剑)2006-02-25 16:40:56 在 Linux/Unix社区 / 程序开发区 提问

最近我研究   全文搜索引擎的心得    
  研究心得:    
  1、看到网上那么多人在研究:   Google的Page   Rank我很心痛   ,我就看了两天Page   Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。    
  2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我?    
            接近   1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的   。    
  3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分:   A、用来计算关键字在文本中出现的次数   B、用来查询的。    
  4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库    
  最后我要说一下总体思路:    
      抓取----然后---预处理----然后索引---然后----保密    
  预处理:   包括计算   rank   将htm文件中的htm表示提取纯文本信息   ,然后保存对应的文本信息    
  数据库中只保存   文件编号   url   Rank     Title   纯文本信息等基本信息    
  然后索引     索引很重要么?     答案是:索引不是非常重要      
  主要是   "保密"   这部分的运算    
  运算之后就可以直接将结果返回给客户端了      
  用我的新研究的方法进行运算取得结果用时在   1秒以内        
   
  以上是我研究的一些心得,希望对大家有所帮助。    
   
  也许有人会问,那你用什么语言开发?    
  当然用   C、C++   最好,其次是用Delphi开发   ,这样不但效率高,还可以保证程序在Linux下照样可以执行。    
   
  最后也许还有人回问,蜘蛛的效率如何,你写过没有?    
  答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测:    
  =========================================    
  ▄【┻┳═一(99923309)   12:05:57    
  思鱼给他们讲讲我的   蜘蛛      
  思鱼(20275543)   12:02:50    
  我在家里测试了一下    
       
  思鱼(20275543)   12:03:00    
  很不错    
       
  思鱼(20275543)   12:03:10    
  和摆渡前几年的一样        
  ============================    
  根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取   10万个网页,而且每个网页的大小限制在   100K以内,Baidu目前每个网页的大小限制在   130K以内。    
   
  最后,我已经收集了100万个国内的一级域名.    
   
  有兴趣的可以一起聊聊啊!    
   
  erp2@163.com        
  www.519so.com     是我花了两周时间做的一个小测试服务器的内存是   512MB    
   
  QQ:99923309    
  问题点数:1、回复次数:3Top

1 楼cqgaoke(技高软件公司)回复于 2006-02-25 17:30:00 得分 1

upTop

2 楼datland(天涯剑)回复于 2006-02-25 18:28:44 得分 0

欢迎大家批评指正!Top

3 楼alaiyeshi(七宝树八宝饭)回复于 2006-02-27 09:51:45 得分 0

不错不错  
  还是这样的帖子好,大家可以交流  
   
  我想问个问题,您的搜索抓到的网页怎么判断还能不能用?  
  因为部分网页在一定时间以后就不可用了  
  多谢Top

相关问题

  • 有用过全文搜索引擎(lucene)的吗?
  • [原创]SEO(搜索引擎优化)的一点心得!顺带升级散分!~~~~~~~~~~~
  • ■■■■大家来研究下UNICODE编码对搜索引擎排位的影响
  • 搜索引擎!
  • 搜索引擎
  • 哪位做过整个网站的全文搜索引擎啊,请提供个思路或源代码
  • 寻找个人使用的桌面性全文搜索引擎,要求有预留的API可以再开发。
  • 我开发的搜索引擎(自已研究的,不知算不算),欢迎评批与交流
  • 搜索引擎的问题?
  • 搜索引擎的问题!

关键词

  • 搜索引擎
  • 研究
  • 网页
  • 文本
  • 文件
  • 信息
  • 心得
  • 全文搜索引擎
  • 索引
  • 运算

得分解答快速导航

  • 帖主:datland
  • cqgaoke

相关链接

  • CSDN Blog
  • 技术文档
  • 代码下载
  • 第二书店
  • 读书频道

广告也精彩

反馈

请通过下述方式给我们反馈
反馈
提问
网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|问题报告
北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号
世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright © 2000-2008, CSDN.NET, All Rights Reserved
GongshangLogo