在互联网发展的初期,互联网中的信息较少,信息查找也比较容易,但是随着互联网的迅速发展,信息呈现出爆炸性增长的趋势。为了使用用户能够在不计其数的互联网信息中找到自己所需要的内容,专门提供互联网搜索服务的搜索引擎也就应运而生。

1.搜索引擎的定义

搜索引擎(search engine) 是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,再对信息进行组织和处理以后,为用户提供检索服务,最后将用户搜索的相关信息展示给用户的网站系统。简而言之,搜索引擎通过收集并整理互联网上众多网页中的关键词并进行索引,进而建立索引数据库。当用户搜索某一个关键词时,所有网页内容中包含该关键词的网页都将被作为搜索结果展示出来。

2.搜索引擎的历史发展

互联网还没有出现时,人们普遍使用FTP共享信息,大量文件散布在FTP主机中,使用用户查询信息非常麻烦。为了解决这个问题,1990年,加拿大麦吉尔大学计算机学院的艾伦 埃塔奇研发了一种搜索服务工具archie.  archie可以定期搜集并分析ftp服务器上的文件信息,为用户提供查找分散保存在各个ftp主机的文件的服务。

虽然archie搜集的信息资源不是网页,但和搜索引擎的基本工作原理是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,archie被公认为搜索引擎的雏形。后来,随着互联网的出现,为了方便查询互联网中的网页信息,真正的搜索引擎也应运而生,并随着互联网的发展不断地发展和进步。总的来说,搜索引擎分为四个时代,下面分别进行介绍。

第一代搜索引擎:分类目录时代,分类目录时代的搜索引擎会收集互联网上各个网站的站名、网址、内容提要等信息,并将它们分门别类地编排到一个网站中,用户可以在分类目录中逐级浏览并寻找相关的网站。搜狐目录、hao123等就是典型的分类目录时代的代表。

第二代搜索引擎:文本检索时代,在文本检索时代,搜索引擎可以对用户输入的查询信息进行各种运算,进而判断其与目标网页内容相关程度的高低,并返回相关度高的网页给用户,一些早期的搜索引擎,如alta vista excite等

第三代搜索引擎:整合分析时代,到了整合分析时代,搜索引擎会通过外部链接的数量来判断一个网站的流行性和重要性,然后再结合网页内容的重要性和相似程度来完善反馈信息的质量,最后还会将反馈回来的海量信息,智能整合成一个门户网站形式的界面,而不是像文本检索时代返回一个没有分类的链接清单。最早使用这种整合分析的是goole,它不仅使得goole大获成功,还在当时引起了学术界和其他商业搜索引擎的极度关注。

第四代搜索引擎:用户中心时代,以用户为中心就是当用户查询时,要充分挖掘用户的深层次需求,实现精准化的用户定位和营销。例如,当搜索关键词“手机”时,对于不同职业和不同年龄段的用户来说,他们的需求是不同的。甚至同一个用户,也会因为时间和场合的不同而有不同的需求。而要通过用户输入的简短关键词来判断用户的真正需求,就需要搜索引擎能够真正地了解用户。搜索引擎可以通过用户搜索时的大量特征,如上网时间、操作习惯、搜索内容等,去逐渐勾勒出用户的大致特征,如性别、年龄阶段、兴趣爱好等,这些数据就是搜索引擎进行“商业数据挖掘”的巨大宝藏。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。[本站由 WEEX唯客交易所(官网www.weex.com,备用域名www.weex.sh)提供赞助]