对模糊搜索有研究的达人进
毕业设计有内容涉及模糊搜索
google的引擎好像是通过把汉字转化为unicode再进行查找的
具体实现还是很不清楚
各位大虾指点一下
谢谢
砖头乱砸得也欢迎
问题点数:200、回复次数:18Top
1 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-03 13:34:22 得分 0
现在很多Isapi的东西作的网络商品搜索引擎
这个模糊匹配如何查找阿?
各位大哥帮忙看看
算法方面
比如
输入
"模糊搜索"
我如果把输入变成4个单个的字
'模','糊','搜','索'
然后再去数据库中进行查找
并进行统计
这种方法慢
另外如果查找的是
"亲爱的"
能够自动将"亲爱"作为一个查找
而不需要我使用'亲','爱'单独搜索
就是网络中的搜索Top
2 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-03 13:35:20 得分 0
我上面只是一块砖
已经实现了
不过我不满意
各位大虾有更好的思想不妨让小弟开一下眼界Top
3 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-03 14:06:28 得分 0
UpTop
4 楼lihongxing2002(潇洒)回复于 2004-05-03 15:02:45 得分 0
学习Top
5 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-03 16:11:51 得分 0
不会吧
^_^Top
6 楼liuyun1984(流云)回复于 2004-05-03 16:28:49 得分 10
sql当中就有%和?这样的通配符支持Top
7 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-04 21:35:07 得分 0
to liuyun1984:
我需要的不是您说的那个东西
谢谢Top
8 楼bigwhiteshark(变性鲨鱼)回复于 2004-05-04 21:53:29 得分 0
你做研究生毕业设计吗?
好快啊!! 学的是两年的吧!!Top
9 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-05 09:53:46 得分 0
upTop
10 楼tiegerium(/*唐秀观*/)回复于 2004-05-05 10:24:39 得分 50
我想先将字符串拆分,1、先判断英文字符和双字节字符。2、拆分比如:"亲爱的","亲"、
"爱"、"的"、"亲爱"、"爱的"。规则是想右拆分,不可想左拆分,如:"爱亲"、"的爱"。
3、然后将拆分的字符构造到SQL语句中。
本人愚见如此。Top
11 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-08 23:42:17 得分 0
to tiegerium:
我的意思是将sql查询的那一道去掉
变成自己的方式
upTop
12 楼jiangchun_xn(GrayMemory)(再回头·灯火依旧·人不见·潸然泪下)回复于 2004-05-09 08:46:59 得分 50
汉字分词吧,可以考虑最大匹配阿(汉字的词线存在一个Trie树里,走得越远越好),然后再逐级递减层次。个人看法Top
13 楼yunuo2010000(允诺)回复于 2004-05-09 09:49:26 得分 0
学习Top
14 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-10 19:22:28 得分 0
to jiangchun_xn(再回头·灯火依旧·人不见·潸然泪下) ( )
不是很明白您的意思
能够举一个例子
不是代码哦
就是匹配
我听一个内部人士说的 需要倒排序
有点不适很明白
我查询倒排序
还是没有得到我需要的东西Top
15 楼huzhangyou(信仰(http://www.libing.net.cn))回复于 2004-05-10 19:22:36 得分 0
upTop
16 楼zhjj1234()回复于 2004-05-11 09:05:55 得分 0
学习...Top
17 楼jiangchun_xn(GrayMemory)(再回头·灯火依旧·人不见·潸然泪下)回复于 2004-05-12 19:49:59 得分 50
倒排是指内容中提取关键字在索引到内容。对于用户来说是内容包含哪些关键字,而这边是关键字对应哪些内容。数据结构的书上肯定有这些内容。。原理很简单的,但是具体实现起来细节上难度还是很大的,比如内容分词,中文上就很麻烦,比如:
那么小 便这样,那么小便 这样
还有其它的一些问题,去年的程序员上有一篇文章google搜索引擎的奥秘讲得挺不错的,可以参考参考。Top
18 楼FreeFice(庄鱼)回复于 2004-05-12 22:22:35 得分 40
搜索引擎是建立在页关键字统计的基础上的,通常,每页文本都会有自己的关键字集合,通过对该集合进行排序以四字节对齐用整型比较的方式进行搜索。当找到存在相同的字符集的叶面以后再进行页内定位,时间复杂度为n(O1+O2)Top




