请教大家一个有关中英文分词的问题,给分不是问题
现在我在做一个项目,就是做一个对本地文件系统的全文搜索引擎,我的想法是使用数据库和bcb来开发,在数据库中我将建立一个表为word(单词,单词所出现的文本的编号,单词在出现文本中的位置),开始表中无记录,在扫描文本的时候对每个分析出的词查找word表,如果有就填充相关信息,没有就插入,这样建立索引的时间可能会慢一点,不过好实现一些,: )。在这个过程当中比较关键的一环就是扫描文本文件,识别出一个个的中英文单词,也就是要进行所谓的“分词”,我现在对这个还是没有思路,不知道哪位达人为我解答一下,最好能贴出代码,分不是问题。
还有,我也欢迎做过相关开发的人给我在项目整体开发思路上提出宝贵意见。
希望大家能帮忙,到时候可以另开帖给分,如果不够的话,呵呵。
问题点数:0、回复次数:1Top
1 楼GHOSTWY(没声音的房间)回复于 2005-06-02 09:07:54 得分 0
upTop




