互联网史话之茫茫网海中的灯塔:搜索引擎
互联网是一个信息和知识的海洋,可是要找到自己想要的东西可不是那么容易,好在我们现在有搜索引擎,想找什么只要一搜就可以。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生 Alan Emtage 、Peter Deutsch、Bill Wheelan发明的Archie( Archie FAQ )。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
现在我们说起搜索引擎,几乎就是google、百度,让我们来记忆一下那些曾经声名显赫的前辈吧。
1994年4月,Stanford University的两名博士生,美籍华人 Jerry Yang (杨致远)和David Filo共同创办了 Yahoo。Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。
Lycos是搜索引擎史上又一个重要的进步。Carnegie Mellon University的 Michael Mauldin 将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要的搜索引擎。
DEC的 AltaVista1995年12月才登场亮相。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(据说设计altavista的目的只是为了展示DEC Alpha芯片的强大运算能力!)。 AltaVista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。
现在最流行的Google诞生于1998年9月27日,Google在 Pagerank 、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,再一次永远改变了搜索引擎的定义。
Baidu 的历史更短,2000年1月,两位北大校友, 超链分析专利 发明人、前Infoseek资深工程师 李彦宏 与好友 徐勇 (加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年10月22日正式发布Baidu搜索引擎(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。
还有一个值得记忆的是中搜,由于联络了国内上千家专业或者门户网站而来势凶猛。中搜最抢眼的,是率先发布了第四代搜索引擎:桌面寻址,这项最新的搜索技术强调以用户和核心的搜索概念,从桌面直达用户想要的信息。据说微软和雅虎都在大力研发中。
Tip: 搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。
Tip:搜索引擎技术:
目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:YAHOO;
机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:Lycos、Google;
元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。
互联网史话系列:
(原文首发我的个人博客站点:http://www.cqtantao.com ,转载请注明作者和出处,谢谢)
- 相关文章:
三鹿事件中的搜索引擎诚信危机 (2008-11-17 12:23:36)
发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。






