独立站如何被Google提取?网页内容怎样被Google提取?
关于搜索引擎抓取网页内容的详细解读
在进行 Google 等搜索引擎推广时,确保搜索引擎能抓取到网页内容至关重要,因为这是网页能被搜索到的前提。那么搜索引擎究竟是如何实现对网页内容的抓取呢?
搜索引擎的核心目标是为互联网用户提供准确答案。它们对互联网进行有效组织,使得用户能迅速找到与其搜索相关的结果。而要让网站在搜索结果中现身,就必须使网页在搜索引擎中获得良好排名,这便是搜索引擎优化(SEO)如此关键的原因。若想在搜索引擎结果页面(SERPs)中崭露头角,就需要一流的 SEO 技术。
蜘蛛爬虫的奥秘
要想网页能在 Google 搜索引擎中被用户搜索到,首先需让网页被搜索引擎收录。搜索引擎用于爬行和抓取网页内容的程序被称为蜘蛛爬虫,简称蜘蛛。为提升质量与速度,搜索引擎会放出众多蜘蛛同时去爬行和抓取网页内容。当蜘蛛访问任何一个网站时,会率先访问网站根目录下的 robots.txt 文件。若该文件禁止搜索引擎抓取某些文件或目录,蜘蛛会遵守协议,不抓取被禁止的网址。
跟踪链接的策略
为抓取尽可能多的页面,搜索引擎蜘蛛会跟踪页面上的链接,如同在蜘蛛网上爬行般从一个页面爬到下一个页面。整个互联网由相互链接的网站及页面构成,其链接结构极为复杂,因此蜘蛛需要采取特定的爬行策略来遍历所有页面。常见的爬行策略包括深度优先和广度优先。
深度优先是指蜘蛛发现一个链接后,会顺着该链接一直向前爬行,直至前方再无其他链接,此时会返回第一个页面,然后继续沿着链接向前爬行。广度优先则是指蜘蛛在一个页面发现多个链接时,会先将页面上所有第一层链接都爬一遍,再沿着第二层页面上的链接爬向第三层页面。
吸引蜘蛛的关键要素
蜘蛛程序不可能抓取所有网页页面,它只会抓取重要内容,以下是一些较为重要的方面:
首先是网站和页面权重,页面包括网站的所有页面,主页尤其重要,不仅要美观,更需具备高质量。每个页面都有权重,搜索引擎会区分权重来给页面排名。比如在网站上,有的域名是首页第一,有的是内页第一,这便是所谓的页面权重。
其次是页面更新度,定期更新的网站流量往往比长期未打理的网站高得多。
再者是网站外链,即其他网站导入到自身网站的链接。导入链接对于网站优化极为重要,其质量(即所在页面权重)会间接影响网站在搜索引擎中的权重。
地址库的作用与来源
搜索引擎会构建一个地址库,能有效避免过度抓取或重复抓取。地址库记录了已发现但未抓取的页面以及已抓取的页面。其 URL 来源包括:由人工录入的种子网站;蜘蛛抓取页面后从 HTML 中解析出的新链接 URL,与地址库数据对比后新增的网址;搜索引擎自带的表格供站长提交网址。
由于网站内容不断变化,搜索引擎爬虫需持续更新抓取内容,这就需要其按照一定周期扫描网站,判断哪些是需要更新的页面、新增页面或已过期的死链接。搜索引擎的更新周期对搜索的查全率有重大影响,周期过长会导致部分新网页无法被搜索到,周期过短则在技术实现上有难度且会浪费资源。搜索引擎爬虫并非对所有网站采用相同周期更新,重要且更新量大的网站更新周期短,如一些新闻网站数小时更新一次,而不重要的网站更新周期可能长达一两个月。
通常情况下,搜索引擎爬虫在更新网站内容时,无需重新抓取全部网页,对于大部分网页,只需判断其属性(主要是日期),与上次抓取的属性对比,若相同则无需更新。