搜索引擎原理

搜索引擎的基本工作原理包括如下三个过程:

  1. 首先在互联网中发现、搜集网页信息
  2. 同时对信息进行提取和组织建立索引库
  3. 再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

爬行和抓取

搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛(Spider)。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链,从这个网站爬到另一个网站,去跟踪网页中的链接,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入数据库等待搜索。所以跟踪网页链接是搜索引擎蜘蛛(Spider)发现新网址的最基本的方法,所以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。

建立索引

蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引(index).在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

搜索词处理

用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。

排序

对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。 再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。没有SEO的帮助,搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。

为什么要用搜索引擎

互联网信息日益丰富,数据越来越庞大,传统的方式很难准确快速的找到需要的信息。搜索引擎通过计算机算法将全网资源进行整合,通过搜索引擎可以快速的搜索快速互联网资源。

搜索引擎有以下优点

  1. 资源丰富

    搜索引擎拥有海量的的资源。包含的互联网上大多数资源。

  2. 使用方便

    使用搜索引擎不需要专业的知识,只需要在输入关键进行搜索即可。

  3. 结果准确

    搜索结果都是经过搜索引擎优化计算的结果,相关度较高。