全文检索算法或索引算法

Michael_Liu 2002-06-03 11:33:53
有哪位大侠可以找到全文检索算法或索引算法,本人以100分相送!
我的EMAIL是michael_lzq@sina.com
...全文
754 39 打赏 收藏 转发到动态 举报
写回复
用AI写文章
39 条回复
切换为时间正序
请发表友善的回复…
发表回复
wonyee 2002-07-12
  • 打赏
  • 举报
回复
中文分词,呵呵,以前我们的系统就有这个功能的,不过那个部分不是我作的。最重要的是有一个不错的词典文件,然后根据随便找来的论文写个算法就ok的。不难的啦。
pumawang 2002-06-23
  • 打赏
  • 举报
回复
TRS 已经是一个非常成熟的产品了,还去做,有必要吗?
zhoukun666 2002-06-23
  • 打赏
  • 举报
回复
up!
dumack 2002-06-21
  • 打赏
  • 举报
回复
以前听别人说全文检索的算法主要是倒排数和B+。我也想做个轻亮级的全文检索系统,但在分词时遇到很大困难。谁有中文分词的经验阿,指教下
zzjjww 2002-06-20
  • 打赏
  • 举报
回复
关注
jinboforever 2002-06-18
  • 打赏
  • 举报
回复
stonesky(no orbit) :你好!
我很需要您的帮助,谢谢!
jinboforever@yahoo.com.cn
clq_163com 2002-06-17
  • 打赏
  • 举报
回复
可见这个地方http://richsearch.com/
是"大富翁"网站全文检索做的.版主yysun已经做出来了,是基于一个国外java
码改的,在"大富翁"上有贴子中有很精彩的讨论,你可以找一下.
seo2002 2002-06-14
  • 打赏
  • 举报
回复
只要有钱,都好办,enterprise search engine搜一下,好多.
有: altavista, google, alltheweb 等等.

google的最好.好像 $20000
hcpp 2002-06-14
  • 打赏
  • 举报
回复
各位大哥:
仅就全文检索而言,sql server 7.0就有此功能,何劳各位再去实现呢?
readhttp 2002-06-14
  • 打赏
  • 举报
回复
sql server2000的全文索引表现很出色呀,为什么不用?
localuser_james 2002-06-14
  • 打赏
  • 举报
回复
stonesky(no orbit)
我的EMAIL是:
localuser@sina.com.cn
white 2002-06-13
  • 打赏
  • 举报
回复
我曾经在一套国外的OPENSOURCE的英文全文检索系统上开发过一个中英文全文检索系统,用于网站的站内检索.
大概的工作方式是先对内容源(比如HTML文件)分词,英文的分词就很简单,词语间有空格等分开,中文的就比较复杂了,一般的做法是从词库里去查,这时词库的量就是关键了,但是词库大了,建立索引的速度就会慢下来.
至于索引,有许多算法了,甚至你干脆可以放到数据库里用数据库的索引,那就省事多了.
最后一个难点在于查询的语法分析,用户输入一句话,将其处理成一个从索引中可以查询的查询.
我的这套中英文全文检索系统已经在多个网站上使用,感兴趣者可以跟我联系.
aaa 2002-06-12
  • 打赏
  • 举报
回复
stonesky(no orbit) :你好!

hbhu@21cn.com
idler 2002-06-12
  • 打赏
  • 举报
回复
我写过一个kmp的PASCAL实现,你可以看看。
http://www.csdn.net/develop/read_article.asp?id=9764
Ra1998 2002-06-12
  • 打赏
  • 举报
回复
记号。
localuser_james 2002-06-11
  • 打赏
  • 举报
回复
sqwang(wang)
www.Hailiang.com这个网址联不通
wonyee 2002-06-11
  • 打赏
  • 举报
回复
我做过这个方面的东西。《海量数据管理——文档和图像的压缩与索引》确实是一本不错的书,英文版叫<<managing gigabytes>>,Ian H.Witten写的。很有参考价值。
全文搜索有很多技术,算法,从索引技术到存取策略,还有压缩技术,索引算法我知道的比较快的是一个“三元最小完全散列法”,具体如何忘记了。国外有一个免费的东东,源代码公开的,里面有n多算法。那个东西就叫MG,可能1.3是最新版本?不是很确定。不过做这个东西的专家们好像自己都快忘记这个东东了。。。呵呵
localuser_james 2002-06-10
  • 打赏
  • 举报
回复
有那位先生知道:stonesky(no orbit)的联系方式
wjw123 2002-06-10
  • 打赏
  • 举报
回复
stonesky(no orbit) :你好!

jianwu_2002@hotmail.com
tan2002 2002-06-10
  • 打赏
  • 举报
回复
这是一些文献,
在不建立index情况下的算法,主要是Boyer_Moore_Aho_Croasick算法
你可以使用Multiple String matching检索一下

在计算机研究和发掌上有一篇文章。

如果需要算法演示可以联系我
tan@software.ict.ac.cn

P4:1.5G上1000长度为10的关键词,每秒30M


【参考文献】
【Dan1997】Dan Gusfield ,Algorithms on Strings, Trees and Sequences: Computer Science and computational Biology ,University of California Press ,CA ,1997
【AC1975】 Aho, A. V., and M. J. Corasick, ''Efficient string matching: an aid to bibliographic search,''Communications of the ACM 18 (June 1975), pp. 333-340.
【CW1979】Commentz-Walter, B, ''A string matching algorithm fast on the average,'' Proc. 6th International Colloquium on Automata, Languages, and Programming (1979), pp. 118-132.
【SumWu1994】Sun Wu,“A FAST ALGORITHM FOR MULTI-PATTERN SEARCHING”,Technical Report Department of Computer Science Chung-Cheng University Chia-Yi, Taiwan sw@cs.ccu.edu.tw
【SumKim1999】Sun Kim ,A new string-pattern matching algorithm using partitioning and hashing efficiently , The ACM Journal of Experimental Algorithmics (JEA) Volume 4 , (July 1999), http://www.jea.acm.org/volume4.html
【Navarro2000】Gonzalo Navarro, Mathieu Raffinot , Fast and flexible string matching by combining bit-parallelism and suffix automata, The ACM Journal of Experimental Algorithmics (JEA) Volume 5 , (August 2000), http://www.jea.acm.org/volume5.html
加载更多回复(19)

33,010

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧