CSDN首页 空间 新闻 论坛 Blog 下载 读书 网摘 搜索 .NET Java 视频 接项目 求职 在线学习 买书 程序员 通知
可用分押宝游戏火热进行中... 专题改版:Java Web 专题
CSDN社区
搜索 收藏 打印 关闭
CSDN社区 >  Web 开发 >  ASP

中文分词和关键字应用请教(请勿简单回复,谢谢)

楼主alore(alore)2006-07-02 18:20:28 在 Web 开发 / ASP 提问

在一个发布配件消息的网站项目中我希望实现以下功能:  
   
  增加一个配件信息,内容如下:  
  “这个是一个专业的公路自行车,他的轴承有40厘米,底座采用专业的聚脂原料生产”  
   
  这个信息发布之后,我希望系统可以自动的将其中的“自行车”、“轴承”、“聚脂”三个字识别出来并且加上连接到指定URL。  
  在系统中,类似的关键字有大概2万个,并且在增长。  
  同时对信息增加时的分词效率要求挺高,日信息增加量可能有数万条。  
   
  请问这样的功能该如何实现?  
   
  按照个人的理解,最基本的应该有一个分词的算法和字典库。如果确定是这样的话,有那位高人可以提供分词的算法和字典库的结构参考。不胜感激。谢谢!! 问题点数:100、回复次数:6Top

1 楼Small__Wolf(CSDN眞J⒏縞笑^_^.這嚒點嘚框框譲偶冩紒紹(︶︵︶))回复于 2006-11-02 15:37:03 得分 0

可可...商业机密.......Top

2 楼showlin(六斤八两八)回复于 2006-11-02 17:02:05 得分 0

之前有看到过csdn有人发布过中文智能分词的dll组件,虽然还不是很完美的样子,毕竟是一种模拟人工智能的算法。你可以搜索看看,不过估计肯定不可能免费给你的。Top

3 楼sibang(QQ:9256114)回复于 2006-11-02 17:52:05 得分 0

呵呵,我刚开发的信息采集系统,刚好用到了这种技术,要就加我qq:9256114Top

4 楼jspadmin(阿笨狗http://www.pifoo.com域名空间专卖cn20、com50元)回复于 2006-11-02 18:45:57 得分 0

有分词组件的,你可以从我置顶的帖子里找到连接  
  直接用asp去做,用正则匹配替换,效率低,如果数据量大了,速度会慢的无法忍受  
  所以,最好还是做成组件Top

5 楼robur(机修)回复于 2006-11-02 20:58:21 得分 0

呵呵,分词模型啊,还是用有语料库(字典)指导的吧,实现不是很困难,就是匹配……关键就是看你上哪弄那么一个完善的字典去了。  
  国内有几个做中文信息处理的开源网站,你可以去那找找相关的东西。  
  至于效率,优化优化不是什么问题,一般到不了“无法忍受”的程度。  
   
  我做过基于Web的信息过滤(此物非GFW,请勿BS),开始就是ASP+DLL这么做的,后来也懒得完善了。工作的时候,查询DB扫描表,将近2W行,然后还要进行一遍巨复杂的浮点计算(你也知道Xeon浮点计算的效率不是很好),最后页面也是一刷而过,套在论坛里测试,对发帖速度基本没有什么影响……(嗯,对服务器的要求可能要高一些,测并发请求负载的时候,服务器4个逻辑cpu基本就是100%……呵呵,兄弟你尽量做优化吧)  
   
  说实话,我这里有10.5W词条的分词字典……呵呵Top

6 楼robur(机修)回复于 2006-11-02 21:00:58 得分 0

我忘了说……xd你要的这个东西,比信息过滤简单多了……  
  我的意思是,对系统的资源需求不会那么高的……Top

相关问题

关键词

得分解答快速导航

  • 帖主:alore

相关链接

  • Web开发类图书

广告也精彩

反馈

请通过下述方式给我们反馈
反馈
提问
网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|问题报告
世纪乐知(北京)网络技术有限公司 版权所有, 京 ICP 证 020026 号
北京创新乐知广告有限公司 提供技术支持
Copyright © 2000-2007, CSDN.NET, All Rights Reserved
GongshangLogo