缘起“亚奇”

网络搜索引擎的历史可以追溯到1991年。最早的搜索引擎是麦吉尔大学(McGill University)开发的“亚奇”(Archie)。“亚奇”允许对网站上的文件名进行关键词搜索。

1992年“Gopher”(万维网的先驱)的降临带来了“维罗妮卡”(Veronica)搜索引擎的诞生(Poulter,1997),它允许多词检索和布尔检索(就是可以使用and和or等运算符搜索)。尽管有这些早期的进步,1994年才真正算互联网发展的一个分水岭,不仅仅因为在这一年里万维网开始普及,还因为在这一年中出现了两个项目,后来都被当作免费服务对公众开放——它们共同改变了互联网发展的历程。

到1994年,今天互联网流行的两类搜索服务——关键词搜索和主题目录就已出现(Poutler,1997)。第一个成功的全文关键词搜索引擎“网络爬行者”(Webcrawler)那时也诞生了,并且发展成为最成功的早期“网络机器人”(Web Robot)之一(注释2:本质上,网络机器人是一种不断在网络上巡游的程序,它随着连接去寻找网页并自己月度网页。每发现一个页面,就将它复制到数据库中,这样人们利用关键词就能找到它。)。在网上寻找信息方面的技术进展受到了广泛欢迎。布赖恩·平克顿(Brian Pinkerton)的“网络爬行者”很快带动了现在更有名的搜索引擎如Lycos和AltaVista的出现。

1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线,除了网站搜索,它还支持Gopher和Telnet搜索。

雅虎出现

这一年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。但雅虎的出现使得分类搜索进入搜索引擎的视野,由于搜索效率的明显提高,非常受欢迎。Yahoo此后陆续采用Altavista、Inktomi、Google提供搜索引擎服务,是搜索引擎发展中很多主要技术的跟踪者和推行者,因此其存在对于搜索引擎来说意义非常,由于并非本文的主题,因此不在此赘述。

全文搜索

1994年4月20日,WebCrawler正式亮相。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile。此后全文搜索渐渐成为大多数搜索引擎的功能。

现代意义的搜索引擎

Lycos,号称最早的现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos)是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)

用户界面和附加服务的革新

Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初第一个登台并不总是很重要。Infoseek友善的用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)

差强人意的元搜索引擎

1995年,一种新的搜索引擎形式出现了--元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。 

自然语法的诞生

AltaVista DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。

而Altavista的另一些新功能,则永远改变了搜索引擎的定义。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

个性化搜索

1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购)虽然Hotbot并未存在很久,但其“个性化搜索”的概念现今已经是搜索引擎开发商的经典。

Alexa

1996年4月,Alexa出现,这是一个通过安装在客户端的软件来收集客户访问的网页的引擎,根据客户的访问和滞留时间来判断一个网页的价值从而决定其结果中的排列顺序。其Traffic Rank模式一定程度上成为了网站的价值评定依据。这也是对于大量使用cookie来搜集客户资料的方式的一个进步。经过多年的沉淀,Alexa已经一定程度上成为网站好坏的评判标准之一。

搜索引擎的数据库时代

1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中World Wide Web only,仍可使用Northernlight搜索引擎)它的出现,也预示着的数据库应用已经成为搜索引擎发展潮流的一个必然趋势。

中文搜索引擎的出现

1998年1月,Openfind创立,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎。

1998年2月,中国人自己的搜索引擎“搜狐”问世,“出门靠地图,上网找搜狐”开始了中国互联网的门户时代。

2000年,百度中国成立,致力做世界最大的搜索引擎、中国的google。并在纳斯达克顺利上市,创造了中国互联网又一个神话。

不得不提的Google

Google公司把1998年9月27日认作自己的生日。1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。

在2000年中期以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直到2000年中数据库升级并被Yahoo选作搜索引擎之后,Google才一飞冲天。

2002年12月,Google推出了商品购物搜索引擎Froogle。用户在搜索框中输入想购买的产品名称,Google将返回从各个购物网站/网上商店上抓取的信息,包括产品图片、产品介绍、价格以及对应的网站链接。此外Google还提供了14个大类的产品分类检索,以及限定价格或价格区间等高级搜索功能。

同年6月,Google正式推出了Google Adsense服务,根据网页内容展示相应广告。

2005年——2006年,google通过一连串的举动,向图像搜索、地图搜索、视频搜索等领域均有突破。可以说,一切都可以以搜索为起点。

2007年1月Google称即将推出基于adsense的音乐视频分销服务

付费服务的时代

2001年8月,LookSmart整合Zeal.com并升级收费服务。非商业网站可通过LookSmart旗下的Zeal.com进行免费登录;商业网站则必须从Basic Submit、Express Submit或LookListings三者中选其一(非商业网站如能承担相关费用,也可选其中一项目进行登录)。此外,LookSmart还推出了“Express Modify”服务,允许付费快速修改网站信息。

2001年8月,LookSmart整合Zeal.com并升级收费服务。非商业网站可通过LookSmart旗下的Zeal.com进行免费登录;商业网站则必须从Basic Submit、Express Submit或LookListings三者中选其一(非商业网站如能承担相关费用,也可选其中一项目进行登录)。此外,LookSmart还推出了“Express Modify”服务,允许付费快速修改网站

2001年9月,搜狐公司在国内率先宣布对搜索引擎收费。但这项收费服务不是针对普通网民,而是对希望把自己的名字加入搜狐搜索引擎的企业提供分类搜索服务收费。

2001年10月,百度推出其“竞价排名”服务,这一服务也成为其日后非常重要的利润来源。

虽然2000年10月,Google AdWords就已经上线,但它在2002年2月才正式推出了Adword Select竞价排名广告业务,用户可针对目标关键词搜索结果页面中Adword广告链接排名进行竞价,最低竞价为5美分,Google竞价排名在考虑竞价高低同时还参考链接的点击率。

满城尽是搜索引擎

2003年3月,3721开始其搜索引擎业务,有意进入中文搜索引擎市场。

2003年4月15日新浪正式宣布和中国搜索联盟(www.chinasearch.com.cn)结成战略合作伙伴,为企业提供搜索排名服务。

2004年6月,Yahoo!在中国推出独立域名的搜索引擎一搜Yisou.com,同年,Yahoo!推出Local Search Engine。

同年8月3日,搜狐正式推出全新独立域名专业搜索网站“搜狗”(www.sogou.com),力推用户互动式搜索功能,成为全球首家第三代中文互动式搜索引擎服务提供商。

2004年9月15日,全球最大的在线购物网站Amazon亚马逊发布了其Web搜索服务工具的新版本A9.com,可从用户所选择的各种资源中组织有用信息,并能记住用户的个人搜索记录。使用A9,用户可访问Google的Web搜索结果和图像搜索结果、来自IMDB的电影信息以及来自GuruNet.com的参考信息,同时也包括亚马逊自身用于促销的Search Inside the Book服务。

2005年1月,AOL发布新版的搜索引擎,并采取多项措施加强搜索引擎。

2006年12月,搜索引擎Ask.com发布本地搜索服务,在同一个界面上集成了地图、方位、商业服务网点、商业事件及电影等多种信息搜索功能。

一切以搜索为起点

搜索引擎的战国时代到来的同时,搜索引擎在互联网的核心地位也已经建立,在盈利压力的驱动下,更大限度的进行服务扩张就成为不得不考虑的事情。其中,拓展基于搜索技术的更高级服务是大多数搜索引擎的首选。提问式搜索引擎、视频搜索、图像搜索、自动分类、垂直搜索、商业搜索以及所谓的自然语言等技术层出不穷。搜索引擎也在向着多元化的方向不断前进。

2004年2月,Yahoo整合其收购的多家搜索引擎技术,推出了YST(Yahoo Search Technology)全文搜引擎技术,次月,Yahoo!推出网页等级评估系统“Web Rank”。该系统根据网页外部链接的数量给予网页以1-10分的等级评分。

2005年4月12日,搜狐以约1000万美元全资收购国内一家名为Go2Map的电子地图公司,搜狐在完成对Go2Map的收购之后将把其资源整合进搜狐的搜索业务线当中。Go2Map从2000年开始专注于网络地图搜索领域,Go2Map在该细分市场内已经做到了接近90%的市场份额。

2001年4月,Teoma登场。Teoma 起源于1998年Rutgers大学的一个项目,Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。

2007年2月,百度宣布正式推出视频搜索服务

2007年2月,施乐(Xerox)下属的帕洛阿尔托研究中心(PARC)与旧金山Powerset公司合作开发新型搜索引擎——基于自然语言的提问搜索引擎。

搜索技术关键词Keywords of Search Technology

搜索技术发展日新月异,这里列举主要的搜索引擎技术,尽量覆盖出现过的所有技术,并对其进行简介。

关键词搜索

1991年,最早的搜索引擎“亚奇”(Archie)就采用了这样的技术。

多词检索和布尔检索

(就是可以使用and和or等运算符搜索)1992年

网络机器人

(1994年,本质上,网络机器人是一种不断在网络上巡游的程序,它随着连接去寻找网页并自己月度网页。每发现一个页面,就将它复制到数据库中,这样人们利用关键词就能找到它。早起由“网络爬行者”(Webcrawler)布赖恩·平克顿(Brian Pinkerton)的“网络爬行者”很快带动了现在更有名的搜索引擎如Lycos和AltaVista的出现。)而也是此后不断发展的 “网络蜘蛛”(Spider)程序的雏形。

分类目录(1994年)

1994年,以EINet Galaxy的出现为代表。在同时期,拥有简单的数据库搜索功能的分类门户Yahoo的诞生,目录索引搜索的模式虽然不能算是严格意义上的搜索引擎,但也是分类目录搜索的重要形式之一。

全文搜索

1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

相关性排序

通过链接、字体、位置等特征,判断搜索词与页面的正相关性。其基础是非常完善的自然语言处理技术,虽然早在Lycos时代就提出了这项技术的假设以及一些实现方式,但真正的相关性排序,尚未到来。

高级搜索语法

高级搜索的主要实现方式,包括AND、OR、NOT等判断语句。

PageRank

PageRank的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。其原理参考了文献计量学的标准。Pagerank是一个用以衡量链接的数量和链接的质量的体系,其算法可以以下面的公式来简单介绍。实际的计算方法要复杂得多。

其中:系数为一个大于0,小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。

HillTop算法

HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍“服装”的,有10个链接都是从“服装”相关的网站链接过来,那这10个链接比另外10个从“电器”相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。这对于两个具有同样主题而且PR相近的网页排序过程中,HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的做弊方法。