中文分词和关键字应用请教(请勿简单回复,谢谢)
在一个发布配件消息的网站项目中我希望实现以下功能:
增加一个配件信息,内容如下:
“这个是一个专业的公路自行车,他的轴承有40厘米,底座采用专业的聚脂原料生产”
这个信息发布之后,我希望系统可以自动的将其中的“自行车”、“轴承”、“聚脂”三个字识别出来并且加上连接到指定URL。
在系统中,类似的关键字有大概2万个,并且在增长。
同时对信息增加时的分词效率要求挺高,日信息增加量可能有数万条。
请问这样的功能该如何实现?
按照个人的理解,最基本的应该有一个分词的算法和字典库。如果确定是这样的话,有那位高人可以提供分词的算法和字典库的结构参考。不胜感激。谢谢!!
问题点数:100、回复次数:6Top
1 楼Small__Wolf(CSDN眞J⒏縞笑^_^.這嚒點嘚框框譲偶冩紒紹(︶︵︶))回复于 2006-11-02 15:37:03 得分 0
可可...商业机密.......Top
2 楼showlin(六斤八两八)回复于 2006-11-02 17:02:05 得分 0
之前有看到过csdn有人发布过中文智能分词的dll组件,虽然还不是很完美的样子,毕竟是一种模拟人工智能的算法。你可以搜索看看,不过估计肯定不可能免费给你的。Top
3 楼sibang(QQ:9256114)回复于 2006-11-02 17:52:05 得分 0
呵呵,我刚开发的信息采集系统,刚好用到了这种技术,要就加我qq:9256114Top
4 楼jspadmin(阿笨狗http://www.pifoo.com域名空间专卖cn20、com50元)回复于 2006-11-02 18:45:57 得分 0
有分词组件的,你可以从我置顶的帖子里找到连接
直接用asp去做,用正则匹配替换,效率低,如果数据量大了,速度会慢的无法忍受
所以,最好还是做成组件Top
5 楼robur(机修)回复于 2006-11-02 20:58:21 得分 0
呵呵,分词模型啊,还是用有语料库(字典)指导的吧,实现不是很困难,就是匹配……关键就是看你上哪弄那么一个完善的字典去了。
国内有几个做中文信息处理的开源网站,你可以去那找找相关的东西。
至于效率,优化优化不是什么问题,一般到不了“无法忍受”的程度。
我做过基于Web的信息过滤(此物非GFW,请勿BS),开始就是ASP+DLL这么做的,后来也懒得完善了。工作的时候,查询DB扫描表,将近2W行,然后还要进行一遍巨复杂的浮点计算(你也知道Xeon浮点计算的效率不是很好),最后页面也是一刷而过,套在论坛里测试,对发帖速度基本没有什么影响……(嗯,对服务器的要求可能要高一些,测并发请求负载的时候,服务器4个逻辑cpu基本就是100%……呵呵,兄弟你尽量做优化吧)
说实话,我这里有10.5W词条的分词字典……呵呵Top
6 楼robur(机修)回复于 2006-11-02 21:00:58 得分 0
我忘了说……xd你要的这个东西,比信息过滤简单多了……
我的意思是,对系统的资源需求不会那么高的……Top




