首页
新闻
论坛
群组
Blog
文档
下载
读书
Tag
网摘
搜索
.NET
Java
游戏
视频
人才
外包
培训
数据库
书店
程序员
欢迎您:
游客
| 退出
| 登录
注册
帮助
我的帖子
我参与的帖子
我的空间
我的网摘
CSDN
CSDN社区
专题开发/技术/项目
搜索引擎技术
将帖子提前
放进我的网摘
推荐给好友
我要提问
帖子加分
生成帖子
置顶
推荐(加精)
取消推荐(加精)
锁定帖子
移动帖子
取消引用
结帖去...
管理菜单
页面风格切换
标准风格
老版本论坛
想做搜索引擎方面的论文,不知道有哪几条路可以走,请高手赐教~
加为好友
发送私信
在线聊天
wangflowers
该用户很懒,没有设置昵称
等级:
可用分等级:
长工
总技术分:
0
总技术分排名:
322578
结帖率:
0.00%
发表于:
2008-08-19 11:40:44
楼主
以前准备走 个性化搜索 但是查阅很多资料后发现 很虚 都没有说 是怎么实现的
所以想走一条可以做点事情的路
问题点数:
20
回复次数:
10
显示所有回复
显示星级回复
显示楼主回复
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
Lx_china
萝卜
等级:
可用分等级:
中农
总技术分:
821
总技术分排名:
22943
发表于:
2008-08-19 14:02:52
1
楼 得分:
0
搜索引擎是一个很庞大的工程,一个人很难搞
毕业论文的话推荐搞分词,资料很全
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
poson
一步又一步
等级:
可用分等级:
掌柜
总技术分:
1058
总技术分排名:
18862
发表于:
2008-08-19 15:19:13
2
楼 得分:
0
看看综述方面的文章
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
stonemusy
stonemusy
等级:
可用分等级:
短工
总技术分:
44
总技术分排名:
136593
发表于:
2008-08-20 09:08:55
3
楼 得分:
0
不是有导师么?
单纯的分词个人感觉别人已经做得很好了......
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
gonxi
等级:
可用分等级:
富农
总技术分:
1966
总技术分排名:
11186
发表于:
2008-08-20 11:20:37
4
楼 得分:
0
之所以虚,是实际的东西还没有太多的人去做,可发掘的地方还有很多
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
wangwei1998
一劍飄紅
等级:
可用分等级:
富农
总技术分:
846
总技术分排名:
22394
发表于:
2008-08-22 00:58:03
5
楼 得分:
0
确实貌似很虚~~
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
hengcai001
贝贝龙
等级:
可用分等级:
中农
总技术分:
14
总技术分排名:
206179
发表于:
2008-08-25 12:32:39
6
楼 得分:
0
思考中
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
poson
一步又一步
等级:
可用分等级:
掌柜
总技术分:
1058
总技术分排名:
18862
发表于:
2008-09-17 19:25:00
7
楼 得分:
0
可以做的东西太多了。参考《搜索引擎——原理、技术和系统》
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
hengcai001
贝贝龙
等级:
可用分等级:
中农
总技术分:
14
总技术分排名:
206179
发表于:
2008-09-19 12:35:35
8
楼 得分:
0
学习
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
ssbs2004
杀手本色
等级:
可用分等级:
长工
总技术分:
0
总技术分排名:
322578
发表于:
2008-09-26 11:04:01
9
楼 得分:
0
唉,我也是想搞这个,苦于没人指点...
修改
删除
举报
引用
回复
加为好友
发送私信
在线聊天
shalear
Shing Zhang
等级:
可用分等级:
中农
总技术分:
231
总技术分排名:
55508
发表于:
2008-11-10 14:06:45
10
楼 得分:
0
想做搜索引擎方面的研究,首先得考虑搜索引擎的几个组成部分和各个研究技术难点。
1)网页搜集(crawler技术):目前主要是浅层Crawl,也就是搜集静态网页,但是internet上很多动态网页还未能大规模搜集,即深层Crawl技术还不够,这可以是一个研究方向。
2)网页预处理:针对收集的网页,必须进行充分的预处理才能保证系统消耗尽可能小和搜索质量尽可能高。比如网页消重,也就是消除内容相似的网页,虽然这样的研究和技术早已进行,但是实际效果还不尽如人意,大家搜索时经常会得到大量(一点都不夸张)的内容重复的网页,不管是baidu, 还是google,都会经常出现这种现象。这就是网页消重做得不够。研究网页消重,除了效果(effect)之外,还有一点是非常重要的,那就是效率(efficiency),因为对于搜索引擎,面对的是海量数据(亿数量级的网页数量),所以设计的算法性能要非常的高效,否则再精准的方法也不能运用到实际应用中。
另外,预处理阶段,还有一个重点——建立索引,这就用到信息检索(information retrieval)方面的知识和技术。目前索引的技术已基本成熟,毕竟信息检索的研究历史已有几十年了。
3)搜索服务:不言而喻,这一部分就是返回与用户查询相关度最高的文档(网页)。该部分基本属于信息检索的研究范畴,比如信息检索模型(信息检索的核心)。研究重点可放在结果排序上,还有结果摘要上。
4)结果评估:这一部分虽然用户看不到,但是对于搜索引擎的质量研究来说,这是一个非常重要的研究。光这一点就可以做一个博士论文(见北大彭波的博士论文《搜索引擎检索系统的效率优化与效果评估研究》)。
以上只是关于搜索引擎的一些基本问题。总之,搜索引擎要做的工作还很多,很多。但是千里之行,始于足下,问题要一个一个的解决,研究要一点一点的进行。
以上完全是我个人的一孔之见,仅供参考。
修改
删除
举报
引用
回复
将帖子提前
放进我的网摘
推荐给好友
我要提问
帖子加分
结帖去...
管理菜单
页面风格切换
标准风格
老版本论坛
网站简介
-
广告服务
-
网站地图
-
帮助
-
联系方式
-
诚聘英才
-
English
-
问题报告
北京创新乐知广告有限公司 版权所有 京 ICP 证 070598 号
世纪乐知(北京)网络技术有限公司 提供技术支持
Copyright © 2000-2008, CSDN.NET, All Rights Reserved
abc推荐给好友