中文分词和关键字应用请教(请勿简单回复,谢谢)
在一个发布配件消息的网站项目中我希望实现以下功能:
增加一个配件信息,内容如下:
“这个是一个专业的公路自行车,他的轴承有40厘米,底座采用专业的聚脂原料生产”
这个信息发布之后,我希望系统可以自动的将其中的“自行车”、“轴承”、“聚脂”三个字识别出来并且加上连接到指定URL。
在系统中,类似的关键字有大概2万个,并且在增长。
同时对信息增加时的分词效率要求挺高,日信息增加量可能有数万条。
请问这样的功能该如何实现?
按照个人的理解,最基本的应该有一个分词的算法和字典库。如果确定是这样的话,有那位高人可以提供分词的算法和字典库的结构参考。不胜感激。谢谢!!
问题点数:100、回复次数:18Top
1 楼qfls001(清风流水)回复于 2006-07-02 22:26:30 得分 0
这是一个关键字加链接的程序
大概的实现方法如下
<?php
$content = $_POST["content"];
$keyword = array("自行车"=>"<a href=\"a.com\">自行车</a>", "轴承"=>"<a href=\"b.com\">轴承</a>",);
$str = str_replace(array_keys($keyword), array_values($keyword), $content);
?>
大概就这个意思
我没在工作电脑上,只能简单的写这些了,希望能对有帮助
?>Top
2 楼qfls001(清风流水)回复于 2006-07-02 22:28:01 得分 0
这是一个关键字加链接的程序
大概的实现方法如下
<?php
$content = $_POST["content"];
$keyword = array("自行车"=>"<a href=\"a.com\">自行车</a>", "轴承"=>"<a href=\"b.com\">轴承</a>");
$str = str_replace(array_keys($keyword), array_values($keyword), $content);
?>
大概就这个意思
我没在工作电脑上,只能简单的写这些了,希望能对有帮助
?>
刚才的多了一个逗号,这个发言没有修改的功能Top
3 楼wildlily980(小李)回复于 2006-07-02 22:44:03 得分 0
到bbs.chinaunix.net搜索hightman这个人的贴子。你一定可以解决这个问题。Top
4 楼fl99(笨笨(QQ:250009333))回复于 2006-07-03 02:30:31 得分 0
为什么不说明数据库类型Top
5 楼alore(alore)回复于 2006-07-06 00:02:16 得分 0
to fl99(笨笨)
数据库是SQL SERVER 2000,您有什么好的思路吗?
to wildlily980(小李)
谢谢您的帮助,您这个只解决了实现的问题,但没有综合考虑到效率和数据的不断增长所带来的问题。Top
6 楼alore(alore)回复于 2006-07-06 00:34:46 得分 0
TO wildlily980(小李)
谢谢你的引导,我看到bbs.chinaunix.net上的帖子了。Top
7 楼fl99(笨笨(QQ:250009333))回复于 2006-07-06 00:54:32 得分 0
分词是指对搜索内容的分词,如果搜索一个断词语的话,就不用分词,直接从配件信息数据库中查找,如果是长词或一句话,先对他分词,
select 词 from 词库 where '%'+词+'%' like 搜索内容
建立游标构造成下面SQL语句,
select * from 配件信息数据库 where 配件信息 like '????' and 配件信息 like '????' .....分词后的所查找的词语
Top
8 楼lantersen(蓝水仁~)回复于 2006-07-06 09:43:35 得分 0
我认为你的“最基本的应该有一个分词的算法和字典库”,
应该是思路中的一部分,UP!Top
9 楼BILLSJONE(BILL_JONE)回复于 2007-04-05 16:12:05 得分 0
markTop
10 楼cxinfo(小Q)回复于 2007-04-06 09:39:32 得分 0
看下这个
http://community.csdn.net/Expert/topic/5421/5421276.xml?temp=.2302057
对你也许有帮助
Top
11 楼johin727(我是新手我怕谁?)回复于 2007-04-06 10:09:10 得分 0
主要还是效率的问题。可能对数据库的依赖较大。PHP的效率瓶颈也主要体现在数据库的操作上。希望能有高人指点
Top
12 楼fredyj(醉爱酸奶)回复于 2007-04-06 13:08:51 得分 0
算法和字典库
可以用js 实现,这样服务器端压力就小很多了Top
13 楼dj0628(Reed)回复于 2007-04-06 13:36:55 得分 0
分词可没有这么简单的!Top
14 楼dj0628(Reed)回复于 2007-04-06 13:41:18 得分 0
算法Top
15 楼snmr_com(麒麟厍人)回复于 2007-04-06 13:51:57 得分 0
乒乓球拍 卖 完了
乒乓球 拍卖 完了
描写性 的 文章
描写 性 的 文章
做 爱做 的 事
做爱 做 的 事
今年好 倒霉少 不得打官司
今年好倒霉 少不得打官司
谁写个程序把上面的句子“智能”地分词?Top
16 楼snmr_com(麒麟厍人)回复于 2007-04-06 13:53:51 得分 0
还有某经典台词:
“他教会了我什么叫做爱”
哈哈……Top
17 楼axaw(SM)回复于 2007-04-06 18:37:06 得分 0
if (!$sex){
描写性 的 文章
}else{
描写 性 的 文章
}
哈哈Top
18 楼axaw(SM)回复于 2007-04-06 18:38:55 得分 0
椄主的这个应该靠数据库索引吧。不防考虑用文件形式。像DZ那样的语言包Top




