中文分词和关键字应用请教(请勿简单回复,谢谢)
在一个发布配件消息的网站项目中我希望实现以下功能:
增加一个配件信息,内容如下:
“这个是一个专业的公路自行车,他的轴承有40厘米,底座采用专业的聚脂原料生产”
这个信息发布之后,我希望系统可以自动的将其中的“自行车”、“轴承”、“聚脂”三个字识别出来并且加上连接到指定URL。
在系统中,类似的关键字有大概2万个,并且在增长。
同时对信息增加时的分词效率要求挺高,日信息增加量可能有数万条。
请问这样的功能该如何实现?
按照个人的理解,最基本的应该有一个分词的算法和字典库。如果确定是这样的话,有那位高人可以提供分词的算法和字典库的结构参考。不胜感激。谢谢!!
此外,这个是一个ASP项目。
问题点数:100、回复次数:6Top
1 楼nnhy(大石头http://www.nnhy.org QQ群10193406)回复于 2006-07-02 19:13:10 得分 0
在分词方面,baidu做得最好了,不过,如果你的是一个项目,最好自己建立词库,比如“自行车”“轴承”等等,然后使用正则来识别,现在许多新闻网站好像就是这样做的Top
2 楼alore(alore)回复于 2006-07-05 23:59:33 得分 0
在有10000个关键字的情况下,使用正则的效率会高吗?Top
3 楼BlueDestiny(Design Life - never-online.net)回复于 2006-07-06 02:58:45 得分 0
分词算法这种东西,有的话估计也不会拿出来。如果你要用asp做你项目的分词的话,我觉得就不可取,首先,你的这一条“在系统中,类似的关键字有大概2万个,并且在增长。”asp在速度上就不行了,用组件写的话肯定比这个快很多。最基本的也是清楚了的,只有自己多摸索了,词库的匹配速度和效率是个关键,也就是算法了...这个得慢慢研究才能说清的Top
4 楼jspadmin(阿笨狗http://www.pifoo.com域名空间专卖cn20、com50元)回复于 2006-07-06 08:38:41 得分 0
刚好有人提供免费的分词算法组件下载:http://community.csdn.net/Expert/TopicView1.asp?id=4863039
我的建议是将词按类别分开,比如自行成相关的、化工原料相关的,将文章分词,再统计文章中出现次数最多的词语是哪个,基本上可以判断属于哪个类的,然后只用该类对文章进行匹配网址操作,这样可以减少关键字匹配次数。
不过,这只是我的想法,没有经过实际验证Top
5 楼slawdan(select 大便 from 粪池 where 蛆数<10)回复于 2006-07-06 09:06:40 得分 0
不明白~~如果纯用数据库的话,数据库压力肯定很大~
如果不用数据库,在查找的算法上就要优化再优化了~Top
6 楼lih163(做自己喜欢的事)回复于 2006-07-06 09:22:42 得分 0
我也在学习Top




