搜索引擎如何获得其结果?
该数据库是通过爬网的过程填充的 ,计算机程序由此访问一个已知的网页,并将在该网页上找到的信息下载到数据库中。在此过程中收集的数据不仅是网页本身的内容,而且是该页面上找到的指向其他网页的链接。在该网页上找到的链接被添加到网页列表中,供搜寻器在其他时间访问。
尽管使用了爬虫名称,但爬虫(也称为漫游器或蜘蛛)不会通过在那里找到的链接在页面之间移动。相反,它更像是解析器将新发现的页面添加到某种“待办事项列表”中,以便以后访问。待办事项列表就是所谓的“ 调度程序”,它本身就是一种算法,它确定这些新发现的网页与搜寻器已经知道的Internet上的所有其他网页相比有多重要。
然后,解析器将从网页获取的信息发送到称为 索引 (称为索引的过程 ),该索引本身就是一种数据库。但是,索引更多地是信息的位置(或 引用)以及对该信息的简短描述(称为 摘要)的数据库。这些引文和简要说明基本上是搜索引擎在查询有关给定主题的信息时向您提供的内容。
只是将您的网页纳入搜索引擎的索引是一个实质性的过程,对于新旧网页,搜索引擎每天都会执行成千上万次此操作。Google和其他搜索引擎通过允许网站所有者向他们提供网页列表(即称为Sitemap的文件),使自己的发现工作变得容易一些 。此外,您可以分别通过Google Search Console和Bing网站管理员工具网站向Google和Bing提交新的单独页面。
作为网站所有者,了解此过程至关重要。是时候确定为什么您的网站可能会受到有机搜索渠道的关注或没有受到关注的时候,您应该问的第一个问题是“我们的网页是否被编入索引了?”,即该网页是甚至在搜索引擎中都存在问题。如果不是,则可能是搜索引擎爬网程序根本还没有到达您的网站,或者本质上存在某种技术上的问题,以防止您的网页被爬网或编入索引。
一旦包含在搜索引擎的索引中,搜索引擎就必须确定当用户搜索某些内容时,该网页将在何时何地出现在其用户面前。也就是说,搜索引擎需要确定您的网页将在搜索结果中出现或排名的关键词 。搜索引擎的排名 算法将在此过程中 发挥作用。
每个搜索引擎的排名算法都略有不同。但是,由于Google在大多数英语国家(及以后)占据着搜索引擎市场的主导地位,因此在此讨论中,我们将重点关注其排名过程。