搜索引擎分类和基本工作原理

admin SEO优化 2021-02-01 130 0

一、搜索引擎的分类

的搜索引擎包括全文索引、目录索引和元搜索引擎。百度和谷歌是搜索引擎的代表。

搜索引擎分类

1.全文索引

全文搜索引擎是广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度、360、搜搜等。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库。当用户使用搜索引擎时,它们从数据库中检索与用户查询条件相匹配的记录,然后按一定排列顺序将检索结果返回给用户。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称「蜘蛛」(Spider)程序或「机器人」(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google 和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google 一般是28),蜘蛛搜索引擎主动派出「蜘蛛」程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,然后搜素引擎会在一定时间内(2天到数月不等)定向向网站派出「蜘蛛」程序,扫描网站并将有关信息存入数据库,以备用户查询。随着搜索引擎索引规则的不断变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

2.目录索引

目录索引也称为分类检索,是互联网上最早提供WWW资源查询的服务,主要通过搜集和整理互联网资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无需输入任何文字,只要根据网站提供的主题分类目录,层层点击进入,即可查到所需的网络信息资源。最具代表性的目录索引莫过于大名鼎鼎的Yahoo、新浪、搜狐(搜狗)分类目录搜索。

目录索引虽然也有搜索功能,但严格意义上并不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象 Yahoo这样的超级索引,登录更是困难。

此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,它拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录或网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

3.元搜索引擎

元搜索引擎在接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpaceDogpileVivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo

 

二、搜索引擎基本工作原理

了解搜索引擎的基本工作原理对我们日常搜索应用和网站提交推广都会有一定帮助,搜索引擎的基本工作原理可以归纳为以下4步。

第一步:爬行

搜索引擎通过一种特定规律的软件跟踪网页链接,从一个链接爬到另一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为「蜘蛛」,也有叫「机器人」。搜索引擎蜘蛛的爬行是被输入了一定规则的,它需要遵从一些命令或文件的内容。

第二步:抓取存储

搜索引擎通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML 文件完全一样。另外,搜索引擎蜘蛛在抓取页面时也做一定的重复内容检测,当遇到权重很低的网站上有大量抄袭、采集或者复制的内容时,很可能就不再爬行。

第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,按照以下步骤进行预处理:

提取文字→中文分词→去掉停止词→消除噪音(搜索引擎需要识别并消除诸如版权声明文字、导航条、广告等类的噪音……)→正向索引→倒排索引→链接关系计算→特殊文件处理。

HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDFWordWPSXLSPPTTXT文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash 等非文字内容,也不能执行脚本和程序。

第四步:排名

用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动。但是由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但一般情况下,搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

 

三、搜索引擎技术

一个搜索引擎通常由搜索器、索引器、检索器和用户接口等四个部分组成。

1.搜索器

搜索器是一个不停运行的计算机程序。它要尽可能高效率地收集各种新信息,还要定期更新已经收集过的旧信息,以避免死链接和无效链接。

2.索引器

索引器的功能是理解搜索器所搜索的信息,并对收集的信息进行整理、分类、索引,以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。

索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(inverted list),即由索引项查找相应的 URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。

3.检索器

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。

4、用户接口

用户接口的作用是输入用户查询的内容,显示查询结果,提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。

 


评论