CSDN首页 空间 新闻 论坛 Blog 下载 读书 网摘 搜索 .NET Java 视频 接项目 求职 在线学习 买书 程序员 通知
不看会后悔的Windows XP之经验谈 简单快捷DIY实用家庭影院
CSDN社区
搜索 收藏 打印 关闭
CSDN社区 >  Web 开发 >  ASP

中文分词和关键字应用请教(请勿简单回复,谢谢)

楼主alore(alore)2006-07-02 18:21:01 在 Web 开发 / ASP 提问

在一个发布配件消息的网站项目中我希望实现以下功能:  
   
  增加一个配件信息,内容如下:  
  “这个是一个专业的公路自行车,他的轴承有40厘米,底座采用专业的聚脂原料生产”  
   
  这个信息发布之后,我希望系统可以自动的将其中的“自行车”、“轴承”、“聚脂”三个字识别出来并且加上连接到指定URL。  
  在系统中,类似的关键字有大概2万个,并且在增长。  
  同时对信息增加时的分词效率要求挺高,日信息增加量可能有数万条。  
   
  请问这样的功能该如何实现?  
   
  按照个人的理解,最基本的应该有一个分词的算法和字典库。如果确定是这样的话,有那位高人可以提供分词的算法和字典库的结构参考。不胜感激。谢谢!!  
  此外,这个是一个ASP项目。 问题点数:100、回复次数:6Top

1 楼nnhy(大石头http://www.nnhy.org QQ群10193406)回复于 2006-07-02 19:13:10 得分 0

在分词方面,baidu做得最好了,不过,如果你的是一个项目,最好自己建立词库,比如“自行车”“轴承”等等,然后使用正则来识别,现在许多新闻网站好像就是这样做的Top

2 楼alore(alore)回复于 2006-07-05 23:59:33 得分 0

在有10000个关键字的情况下,使用正则的效率会高吗?Top

3 楼BlueDestiny(Design Life - never-online.net)回复于 2006-07-06 02:58:45 得分 0

分词算法这种东西,有的话估计也不会拿出来。如果你要用asp做你项目的分词的话,我觉得就不可取,首先,你的这一条“在系统中,类似的关键字有大概2万个,并且在增长。”asp在速度上就不行了,用组件写的话肯定比这个快很多。最基本的也是清楚了的,只有自己多摸索了,词库的匹配速度和效率是个关键,也就是算法了...这个得慢慢研究才能说清的Top

4 楼jspadmin(阿笨狗http://www.pifoo.com域名空间专卖cn20、com50元)回复于 2006-07-06 08:38:41 得分 0

刚好有人提供免费的分词算法组件下载:http://community.csdn.net/Expert/TopicView1.asp?id=4863039  
   
  我的建议是将词按类别分开,比如自行成相关的、化工原料相关的,将文章分词,再统计文章中出现次数最多的词语是哪个,基本上可以判断属于哪个类的,然后只用该类对文章进行匹配网址操作,这样可以减少关键字匹配次数。  
  不过,这只是我的想法,没有经过实际验证Top

5 楼slawdan(select 大便 from 粪池 where 蛆数<10)回复于 2006-07-06 09:06:40 得分 0

不明白~~如果纯用数据库的话,数据库压力肯定很大~  
  如果不用数据库,在查找的算法上就要优化再优化了~Top

6 楼lih163(做自己喜欢的事)回复于 2006-07-06 09:22:42 得分 0

我也在学习Top

相关问题

关键词

得分解答快速导航

  • 帖主:alore

相关链接

  • Web开发类图书

广告也精彩

反馈

请通过下述方式给我们反馈
反馈
提问
网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|问题报告
世纪乐知(北京)网络技术有限公司 版权所有, 京 ICP 证 020026 号
北京创新乐知广告有限公司 提供技术支持
Copyright © 2000-2007, CSDN.NET, All Rights Reserved
GongshangLogo