首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 培训 数据库 书店 程序员
中国软件网
欢迎您:游客 | 登录 注册 帮助
  • 搜索引擎技术学习
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-01-18 11:10:49 楼主
    小弟最近想要往搜索开发技术方向发展,哪位大侠可以指点一下,
    ,比如需要看哪些书啊,或是提供一些相关的学习资料
    88  修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-01-18 11:29:211楼 得分:0
    自已是为公司做了一个(http://zsk.folo.cn/search/),但实在不怎么样,而且是在耍一些小聪明,现在是想前面的学习一下
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-01-18 16:57:152楼 得分:0
    搜索技术现在可以说还处于初级阶段,   现成的资料比较少.

    你做的上面那个还行,不知道你是用nutch还是什么
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-01-19 13:05:003楼 得分:0
    怎么都没什么人参于啊
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-01-23 22:25:454楼 得分:0
    我现在也是想在这方面发展啊。请问兄弟你之前是怎么学的?
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-01-24 11:49:165楼 得分:0
    呵呵,偶的方法比较傻,分析别人的分词方式,结果集排序,以及最终显示的标示。
    个人比较不喜欢看源码,都是看理论,再自己动手做一下,但效果并不好,一头雾水哦,
    还往各位都都指点
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-01-24 22:57:196楼 得分:0
    有没有什么好得资料介绍下啊?我是刚开始接触。
    下面有个问题,不知道你能否指点下?
    在论坛的html源码里,那些作者,时间,发文内容,是怎么样标识的?也就是说我读去html源码分析时怎么知道他是作者名?怎么提取这些内容呢?
    thx!!!
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-02-14 11:52:387楼 得分:0
    建议看看吴军的 < <数学之美> >
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-02-28 23:32:548楼 得分:0
    哈哈...正在学习中...也是一头雾水...大家有什么宝贵的意见和经验,说出来分享分享啊....
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-03-20 12:39:249楼 得分:0
    《ftp搜索引擎的设计和实现》----从设计到编码,一步一步打造一个完备的ftp搜索  

    保持同步更新的博客:
            http://blog.163.com/weichao_zju
            http://hi.baidu.com/weichao_zju

    访问该搜索引擎的地址:
    校外网通、教育网用户   http://iseftp.2288.org:52080/
    校外电信用户   http://yomi.2288.org:288/
                              http://yomi.vixp.net:288/
    其他:
        http://jwb.zju.edu.cn/Common/po/index.php?q=MTAuMTMuMjIuODg-&hl=1111101001
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • realmud
    • 等级:
    发表于:2007-03-31 19:40:4710楼 得分:0
    中文相关资料的确比较稀缺,   可以先从google的那些简单的文档看起.
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-04-13 14:39:2511楼 得分:0
    关键是索引、分词、排序规则等的处理,大量的搜索结果如何保存的问题,如果应付大用户量的搜索请求。nutch只能作学习用,实际用是不行的。
    我们可以提供垂直搜索、元搜索全套解决方案,为您再造一个酷讯、一个搜评、一个bbmao,甚至是一个奇虎。
    现有的搜索案例:
    1、网页搜索:http://www.yqs.cc:9090/search/search.jsp
    同时从百度、雅虎、google、MSN、搜狗、中搜等网站提取搜索结果,并根据自定制的规则排序。
    2、MP3搜索:http://www.yqs.cc:9090/search/mp3.jsp
    同时从百度Mp3、雅虎Mp3搜索音乐
    3、BT搜索:http://www.yqs.cc:9090/search/bt.jsp
    同时从多个BT网站提供最新的BT下载内容
    4、迅雷下载搜索:http://www.yqs.cc:9090/search/xunlei.jsp
    同时从多个提供迅雷下载链接的网站搜索最新的下载内容
    5、电驴下载搜索:http://www.yqs.cc:9090/search/emule.jsp
    从verycd.com等电驴下载内容提供网站搜索最新的下载

    系统内建多级索引机制,以保证最快的搜索响应时间,支持分布式部署,能支持平均日搜索请求量超过200万次。
    提供全套C++/java程序源代码及解决方案,提供搜索的定制开发。
    另有移动、联通、电信的SP端程序,OA解决方案提供。

    如果您有以下搜索需求:
    音乐、网页、求职、商机、数据库、车票、论坛、住房、交友、旅游,及其他各类行业搜索,请按以下方式联系我:
    QQ:46244150
    Email:daijuhua@163.com
    MSN:daijuhua@hotmail.com
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-05-13 01:27:3512楼 得分:0
    中文相关资料的确比较稀缺,   可以先从google的那些简单的文档看起.
    ============================================================
    那些文档可以在哪找到??谢谢
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-06-15 17:27:3013楼 得分:0
    磐志专业网站搜索引擎----提高用户体验,减轻数据库压力,挖掘网站的价值          

            磐志专业网站搜索引擎,是一款专门为全国行业网站、门户网站、电子商务网站定做的专业搜索引擎。它通过对网站数据库的数据建立索引,查询时不访问数据库,能有效减轻数据库和系统的压力,目前可以支持1000万级的数据,毫秒级的查询时间,每秒100人的并发访问,从而实现大容量、高速的目标;可以适应linux和window平台,支持多种数据库接口和不同脚本语言(PHP、ASP、JSP、ASP.net),具备较强的兼容性;它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索、句子搜索,大大提高了用户操作的友好度;同时能够根据客户的需求进行用户的数据挖掘,提高网站系统的价值。

    ★1   功能特点

    1.1   符合现代网民对搜索的惯性和依赖

            据权威机构调查表明,96.5%的网名使用过搜索引擎,68.3%的网民经常使用搜索引擎。在信息爆发时代的今天,一级一级往下展开的栏目分类检索已经让网名失去了耐心,他们已经习惯使用搜索引擎来找他们感兴趣的东西,同时对搜索引擎的功能要求也越来越高.这样用户进入一个网站之后,如果不能让用户方便的查找到他所需要的信息,他们也找不到熟悉的搜索输入框,他们会感到很陌生和意外,可能马上会离开,您的网站可能提供了很好的内容,但用户不习惯也没耐心去挖掘。磐志专业网站搜索引擎根据客户的搜索,按照一个主题把所有相关文档提供给访问者,可以让访问者更全面的了解他所想要的东西,这增加了网站信息间的组织性和逻辑性,方便了访问者的使用,提升用户体验度。

    1.2   多关键字组合、句子查询,达到毫秒级的速度

            为了迎合大多数网民对搜索功能的惯性和依赖性,很多网站只好提供通过SQL语句查询数据库来实现一些简单的模糊匹配,但是这种“搜索”功能通常只能匹配一个关键字,匹配的数据库字段也非常有限。磐志专业网站搜索引擎不仅仅具备通用搜索引擎的构架和功能,同时可以对用户的输入进行分词,用户可以随便地输入一个或多个关键词,甚至输入一句话,大大提高了用户操作的友好度。同时磐志专业网站搜索引擎在数据容量、查询速度、功能性、适用性、兼容性等方面也具有很高的专业水平。

    1.3   查询不访问数据库,降到数据库负担,减轻系统压力

            当用户直接查询数据库,不但查询速度慢,而且会导致数据库的压力增大,当数据库记录超过一定数量时,频繁地查询数据库,会导致数据库的负载直线上升,从而波及其它功能的使用,尤其是同时有很多用户访问的时候,对数据库和系统会产生较大的压力,严重时会导致信息塞车,甚至会导致系统崩溃。
    磐志专业网站搜索引擎是一套真正的搜索引擎,它通过对数据库的数据进行索引,在查询时不访问数据库,可以实现毫秒级的检索速度和每秒上百次的并发访问,用户搜索对数据库的压力为零。

    1.4   完善的统计功能,掌握用户需求,抓住市场动向  

            磐志专业网站搜索引擎还具备完善的统计功能,其日志功能能记录检索词和结果,可以统计一段时间内关键字的访问频度,列出前100个热门关键字。让客户能较好能够把握其用户的需求,   抓住市场动向,在当今信息万变的时代把握用户心理变化,创造最大的财富。

    1.5   按关键字投放广告,实现网站盈利

            广告是目前互联网盈利的最重要也是最直接的途径,网络广告也有着很好的发展前景。据Jupiter调研公司发布的一项研究报告指出,美国网络广告开支2011年将达到259亿美元,占到广告开支总额的9%,而付费搜索将是主要动力,互联网搜索广告2005年已经超过了显示广告,搜索广告的大幅增长是由于新客户和广告商争夺广告位,这提高了价格。而且,随着搜索广告商的成熟,他们开始采用更多关键词,但盲目的投放广告,也可能会导致用户的反感,怎么办?只投放用户感兴趣的广告!磐志站内搜索引擎,可以根据用户输入的关键字,自动匹配广告,让你的广告有的放矢,做到真正的分众!

    1.6   迅速提高自己的技术门槛

            有没有专业网站检索其实已经不只是用户体验度的问题了,还是一个网站专业身份的象征,也是网站所属公司形象的体现。浏览国外公司的网站,会发现几乎所有网站都在首页最明显的区域放置了一个搜索框,这传达的信息是:专业的网站都有专业网站检索。网民的心态是:我不能很快找到我需要的信息,甚至找不到我所需要的信息,那这个网站在我的心里根本就没有体验度和口碑了,你要是没有就说明你不够专业。所以为了树立形象,也需要用到专业网站检索。

            同时另外一点最大的好处就是,具有一套为您打造的专业网站搜索引擎,您的网站就不会被同类网站轻松模仿,这是因为一般的模仿者是不会有实力开发或购买一套专业的搜索引擎系统的。这样自己作为先驱者积累出来的用户、技术、资金上面的优势能够体现出来,让您在互联网上能够抓住更多客户的心。

    ★2   工作原理

    2.1   原理概述

            磐志站内搜索引擎通过嵌入到企业网站中,具有较好的移植性,可通过远程的安装调试,使系统正常并良好的运行。不会影响企业原有的网站运行,原有网站基本上也不需要改动。磐志站内搜索引擎不需要中转数据库,站内数据库的数据加载自动完成,同时在后期具备实时性的主动更新方式,可以设置更新时间少于10分钟。同时维护非常简单,安装完之后,所有操作(包括数据初始化、动态更新等)会自动完成,每天都会生成统计报表,不需要人工干预,整个过程简单,方便。

    ★3   产品优势

            我们的理念就是做最专业的专业网站搜索引擎;我们的价值观就是为您的企业创造方便和价值;而我们前进的动力就是您的支持。我们的宗旨是给予您优质的服务、专业的技术支持,获得您良好的口碑,让我们能够肯定自己的价值,坚持我们的理想。

    3.1   跨平台、大容量、实用、实时、可定制

            跨平台性――适用于Linux与Windows系统,支持mysql、postgresql、sybase、sqlserver等数据库
    大容量性――目前可以支持1000万级的数据,毫秒级的查询时间,每秒100人的并发访问
    功能性――支持分词、多个关键字、句子查询等
    实时性――数据库数据的实时更新,方便客户,数据加载自动完成,不需要人工的干预,最大限度降低企业成本
    可制定性――可根据企业的需求对系统进行功能上的修改,包括数据库检索的内容、搜索结果排序算法、显示界面等。

    ★4   可定制内容

    4.1   数据库接口

            可以支持mysql、postgresql、sybase、sqlserver、oracle等流行数据库接口。可以根据客户需求,提取相关数据表字段。

    4.2   排序算法

            可以根据客户的需求,定制搜索结果的排序算法。例如按会员的积分排序,按会员的更新时间排序,按关键字匹配程度排序等。
    4.3   搜索结果界面
            客户可以预先做好搜索结果界面模板,使得搜索界面与原来网站风格一致。显示内容不必拘泥于传统的标题、摘要、链接模式,可以根据网站的特点与风格自行设计。
                           
    Q     Q   :   602-439-615
    手     机:1591-4266-522
    M   s   n   :   lcy8101@hotmail.com
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-07-10 10:43:5314楼 得分:0
    有兴趣可以到 "搜索引擎技术交流论坛 "   看看,这里或许有你想要的东西。也希望大家多多支持。共同进步。
    http://topsearch.5d6d.com/index.php
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-08-23 18:19:2315楼 得分:0
    开发搜索引擎系统主要涉及到的具体技术为:
    (1)http网络协议.
    (2)多线程技术.
    (3)socket通信.
    (4)高效服务端程序开发.

    看LZ要在那个OS下面做了...

    如果是UNIX下面,推荐学习W.Richard   Stevens的三本巨作(可惜W.Richard   Stevens已乘鹤西去了)

    1.unix   network   programming.
    2.TCP/IP   Illustrated.
    3.Advanced   Programming   in   the   UNIX   environment.

    如果是windows的OS,

    1.Charles   Petzold   的Programming   Windows.
    2.W.Richard   Stevens的unix   network   programming.和TCP/IP   Illustrated.
    3.Jeffrey   Richter的Advanced   Windows和Programming   Applications   for   Microsoft   Windows.
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • cllr
    • 等级:
    发表于:2007-08-31 16:59:2216楼 得分:0
    tongse,要真正的做搜索引擎,需要的技术可不止这些哦,呵呵,对系统底层的了解是必不可少的
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-09-07 10:47:5017楼 得分:0
    有人说信息检索从技术角度来讲已经相当成熟了,为什么在搜索引擎方面总是找不到好的资料呢!
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-09-08 08:23:0918楼 得分:0
    最经典的肯定是 <网络机器人java编程指南>
    还有 <ajax-lucence>
    其它的书我也不知道了
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • walacato
    • 等级:
    发表于:2007-09-08 09:06:0519楼 得分:0
    http://netsoft.cnstar.ca/techdoc.php?a=disp&id=54
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-09-12 08:23:5220楼 得分:0
    先看看《Lucene in Action》这本书,有中英文版。非常不错的一本书。
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-11-06 13:32:4621楼 得分:0
    “我爱搜索” 搜索引擎爱好者社区,专注搜索引擎技术,包括爬虫(spider),亚洲语言分词,倒排索

    引,全文索引(lucene),数据精清洗与抽取,分布式文件系统,网页去噪,去重,URL抽取,正则表达

    式...

    爬虫C++代码下码,文档分析,中文分词系统代码下载,lucene全文索引系统源代码下载,

    htmlparser的JAVA源代码下载等等。

    关注搜索市场,包括搜索门户,社区搜索,视频搜索,搜索营销(SEO)等垂直搜索领域的资讯,模式

    ,分析像百度MP3,百度视频,酷讯(kooxoo)等模式和资讯。


    一切尽在搜索引擎社区,“我爱搜索” 网址: http://www.5isosuo.cn/


    一个简单的登录 ,将拥有个人blog主页,个人相册及丰富的搜索技术资料,市场资讯,模式分析。

    两个支持QQ群组:

    搜索引擎.垂直.技术群:  8430159  (200人)
    搜索引擎.垂直.技术群2: 29677981

    (请注明从何得知本群的哦~~)
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-11-11 11:10:3722楼 得分:0
    学习
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-11-25 13:11:4323楼 得分:0
    推荐一本入门的吧

    搜索引擎 - - 原理、技术与系统 李晓明/闫宏飞

    中文,不厚,比较适合入门的人看看
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-11-26 15:09:3024楼 得分:0




     <br />  <br />
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-11-27 15:04:0025楼 得分:0
    中文分词技术
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2007-12-21 17:01:0126楼 得分:0
    Lucene  in  Action ajax-lucence这样的书入门还不错,但是不可能真正从它们学到信息检索的东西,很多的理论模型还是要阅读其他书籍的
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    • CZH_friend
    • 等级:
    发表于:2007-12-24 15:19:2727楼 得分:0
    Lucene     
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2008-05-01 08:17:2828楼 得分:0
    都是很好的建议! 值得学习
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2008-06-19 19:24:4829楼 得分:0
    好的建议,学习学习。。。
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2008-06-22 17:43:0330楼 得分:0
    这是偶做的搜索引擎:http://search.exvv.com
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2008-07-01 22:26:1431楼 得分:0
    也许是国内唯一的专业搜索引擎开发培训。

    目标:高端搜索引擎软件开发工程师
    随着百度和Google等搜索引擎公司的成功,搜索引擎开发成为一项极富前景的工作,市场对搜索软件开发工程师的需求极其旺盛。大型搜索门户需要大量专门的搜索软件开发人才,而众多中小型网站及企业也需要垂直搜索,网站搜索,全文检索,知识库系统等非结构化数据开发软件工程师。搜索引擎软件开发工程师培训将提供业界流行的基于Lucene的开源解决方案培训,以及网络信息抓取实用培训,文本挖掘等智能软件技术的深入应用培训。

    完成培训的学员具有高端搜索引擎软件开发工程师的资质。
    内容:高端搜索软件技术
    在培训名师的亲自带领下,通过完成一个基于Java Lucene全文检索核心的、Unix/Linux平台、Oracle数据库、以Nutch或Solr为搜索集群平台、使用Div和Ajax技术创建用户浏览器界面,完成一个包括网络信息抓取,自动分类的高性能,智能垂直职位搜索系统。培训学员全程参与软件产品的分析、设计和开发。掌握开发大型分布式搜索集群所需要的算法基础、实践经验。
    前导知识简介:
    希望学员在学这门课程时必须具备的知识是:CoreJava、Servlet、Jsp。如果学员具备以下知识点:数据结构、编译原理、概率论,会帮助学员更深刻的理解搜索。没有这些基础的学员也不必担心,随着课程的进行老师会帮大家整理相关知识点。
    五大热点技术:
    全文检索技术:Lucene/Solr的基本使用及高级技巧。
    网络爬虫:Nutch、网页正文提取、信息采集。
    中文分词:中文分词语料库整理、正向或反向最大匹配的中文分词方法以及概率分词算法、高效查找词典算法。
    分布式搜索:多shard搜索单元的查找、Hadoop分布式计算环境。
    智能搜索:拼写检查、自动摘要、采用机器学习方法训练的文本自动分类,自动聚类。

    真实项目实战:
    通过完成由北京盈智星科技发展有限公司提供的智能垂直人才招聘搜索的开发,精通全套智能搜索开发技术,掌握算法原理,实践和架构,积累1-2年的搜索软件开发经验。

    就业通道:
    国际一流的软件公司:
    微软、IBM、雅虎、Sony、法国电信。

    Alexa排名几千名以内的各大网站:
    Google、百度、阿里巴巴、搜狐、Ebay、宜搜、搜房网、猫扑网、趣拿网、中华英才、前程无忧。

    各大行业网站:
    化工网、自动化网、医药网、律师网。

    热门行业:
    电信,电力,银行、证券等。

    授课方式:
    人手一机。提供基于Linux集群的Nutch分布式搜索实战环境。

    入学条件:理工科本科以上学历
    从基础开始,由浅入深,循序渐进,适合理工科本科以上或同等学历者。

    课程安排:全日班,2个月。

    培训价格:Java搜索班6000元

    联系方式:QQ:119098377 msn:lgjut@sina.com 手机:13910206644,电话:81727660
    公司网址 http://www.lietu.com
    开课时间:2008年8月
    每期招收人数不超过10人,预报从速。
    修改 删除 举报 引用 回复
    进入用户个人空间
    加为好友
    发送私信
    在线聊天
    发表于:2008-07-22 16:47:4032楼 得分:0
    mark
    修改