首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 培训 数据库 书店 程序员
中国软件网
欢迎您:游客 | 登录 注册 帮助
  • 想做搜索引擎方面的论文,不知道有哪几条路可以走,请高手赐教~
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • wangflowers
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    • 结帖率:
    发表于:2008-08-19 11:40:44 楼主
    以前准备走  个性化搜索  但是查阅很多资料后发现 很虚  都没有说 是怎么实现的
    所以想走一条可以做点事情的路
    20  修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • Lx_china
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-08-19 14:02:521楼 得分:0
    搜索引擎是一个很庞大的工程,一个人很难搞
    毕业论文的话推荐搞分词,资料很全
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • poson
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-08-19 15:19:132楼 得分:0
    看看综述方面的文章
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • stonemusy
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-08-20 09:08:553楼 得分:0
    不是有导师么?
    单纯的分词个人感觉别人已经做得很好了......
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • gonxi
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-08-20 11:20:374楼 得分:0
    之所以虚,是实际的东西还没有太多的人去做,可发掘的地方还有很多

    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • wangwei1998
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-08-22 00:58:035楼 得分:0
    确实貌似很虚~~
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • hengcai001
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-08-25 12:32:396楼 得分:0
    思考中
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • poson
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-09-17 19:25:007楼 得分:0
    可以做的东西太多了。参考《搜索引擎——原理、技术和系统》
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • hengcai001
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-09-19 12:35:358楼 得分:0
    学习
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • ssbs2004
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-09-26 11:04:019楼 得分:0
    唉,我也是想搞这个,苦于没人指点...
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • shalear
    • 等级:
    • 可用分等级:
    • 总技术分:
    • 总技术分排名:
    发表于:2008-11-10 14:06:4510楼 得分:0

    想做搜索引擎方面的研究,首先得考虑搜索引擎的几个组成部分和各个研究技术难点。

    1)网页搜集(crawler技术):目前主要是浅层Crawl,也就是搜集静态网页,但是internet上很多动态网页还未能大规模搜集,即深层Crawl技术还不够,这可以是一个研究方向。

    2)网页预处理:针对收集的网页,必须进行充分的预处理才能保证系统消耗尽可能小和搜索质量尽可能高。比如网页消重,也就是消除内容相似的网页,虽然这样的研究和技术早已进行,但是实际效果还不尽如人意,大家搜索时经常会得到大量(一点都不夸张)的内容重复的网页,不管是baidu, 还是google,都会经常出现这种现象。这就是网页消重做得不够。研究网页消重,除了效果(effect)之外,还有一点是非常重要的,那就是效率(efficiency),因为对于搜索引擎,面对的是海量数据(亿数量级的网页数量),所以设计的算法性能要非常的高效,否则再精准的方法也不能运用到实际应用中。

    另外,预处理阶段,还有一个重点——建立索引,这就用到信息检索(information retrieval)方面的知识和技术。目前索引的技术已基本成熟,毕竟信息检索的研究历史已有几十年了。

    3)搜索服务:不言而喻,这一部分就是返回与用户查询相关度最高的文档(网页)。该部分基本属于信息检索的研究范畴,比如信息检索模型(信息检索的核心)。研究重点可放在结果排序上,还有结果摘要上。

    4)结果评估:这一部分虽然用户看不到,但是对于搜索引擎的质量研究来说,这是一个非常重要的研究。光这一点就可以做一个博士论文(见北大彭波的博士论文《搜索引擎检索系统的效率优化与效果评估研究》)。


    以上只是关于搜索引擎的一些基本问题。总之,搜索引擎要做的工作还很多,很多。但是千里之行,始于足下,问题要一个一个的解决,研究要一点一点的进行。

    以上完全是我个人的一孔之见,仅供参考。
    修改 删除 举报 引用 回复

    网站简介广告服务网站地图帮助联系方式诚聘英才English 问题报告
    北京创新乐知广告有限公司 版权所有 京 ICP 证 070598 号
    世纪乐知(北京)网络技术有限公司 提供技术支持
    Copyright © 2000-2008, CSDN.NET, All Rights Reserved