网络爬虫是什么意思？详解网络爬虫的分类、组成、工作原理及搜索策略

2023-06-25 10:10:49

网络爬虫是什么意思

一、网络爬虫是什么意思

网络爬虫（英文：Web Crawler或Spider）又称为网络蜘蛛、网页蜘蛛或网络机器人，是一种按照一定规则，自动地抓取互联网信息的程序或者脚本。网络爬虫是为搜索引擎从万维网上下载网页的程序，是搜索引擎的重要组成。传统爬虫从一个或若干个初始网页上的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

二、网络爬虫的分类及工作原理

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫(General PURpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深度爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

1、通用网络爬虫

通用网络爬虫又称全网爬虫(Scalable Web Crawler)，爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。由于商业原因，它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。虽然存在一定缺陷，但通用网络爬虫适用于搜索引擎搜索广泛的主题，有较强的应用价值。

通用爬虫的工作流程

*通用爬虫的工作流程

通用爬虫主要存在以下几方面的局限性：

（1）、由于抓取目标是尽可能大的覆盖网络，所以爬行的结果中包含大量用户不需要的网页；

（2）、不能很好地搜索和获取信息含量密集且具有一定结构的数据；

（3）、通用搜索引擎大多是基于关键字的检索，对于支持语义信息的查询和索引擎智能化的要求难以实现。

2、聚焦网络爬虫（主题爬虫）

聚焦网络爬虫(Focused Crawler)，又称主题网络爬虫(Topical Crawler)，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

（1）、主题爬虫原理

主题爬虫并不追求大的覆盖率，也不是全盘接受所有的网页和URL，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息，不仅客服了通用爬虫存在的问题，而H-返回的数据资源更精确。主题爬虫的基本工作原理是按照预先确定的主题，分析超链接和刚刚抓取的网页内容，获取下一个要爬行的URL，尽可能保证多爬行与主题相关的网页，因此主题爬虫要解决以下关键问题：1)如何判定一个已经抓取的网页是否与主题相关；2)如何过滤掉海量的网页中与主题不相关的或者相关度较低的网页；3)如何有目的、有控制的抓取与特定主题相关的web页面信息；4)如何决定待访问URL的访问次序；5)如何提高主题爬虫的覆盖度；6)如何协调抓取目标的描述或定义与网页分析算法及候选URL排序算法之问的关系；7)如何寻找和发现高质量网页和关键资源。高质量网页和关键资源不仅可以大大提高主题爬虫搜集Web页面的效率和质量，还可以为主题表示模型的优化等应用提供支持。

(2)、主题爬虫模块设计

主题爬虫的目标是尽可能多的发现和搜集与预定主题相关的网页，其最大特点在于具备分析网页内容和判别主题相关度的能力。根据主题爬虫的工作原理，下面设计了一个主题爬虫系统，主要有页面采集模块、页面分析模块、相关度计算模块、页面过滤模块和链接排序模块几部分组成，其总体功能模块结构如图2所示。

页面采集模块：主要是根据待访问URL队列进行页面下载，再交给网页分析模型处理以抽取网页主题向量空间模型。该模块是任何爬虫系统都必不可少的模块。页面分析模块：该模块的功能是对采集到的页面进行分析，主要用于连接超链接排序模块和页面相关度计算模块。

页面相关度计算模块：该模块是整个系统的核心模块，主要用于评估与主题的相关度，并提供相关的爬行策略用以指导爬虫的爬行过程。URL 的超链接评价得分越高，爬行的优先级就越高。其主要思想是，在系统爬行之前，页面相关度计算模块根据用户输入的关键字和初始文本信息进行学习，训练一个页面相关度评价模型。当一个被认为是主题相关的页面爬行下来之后，该页面就被送入页面相关度评价器计算其主题相关度值，若该值大于或等于给定的某阂值，则该页面就被存入页面库，否则丢弃¨。页面过滤模块：过滤掉与主题无关的链接，同时将该URL及其所有隐含的子链接一并去除。通过过滤，爬虫就无需遍历与主题不相关的页面，从而保证了爬行效率。排序模块：将过滤后页面按照优先级高低加入到待访问的URL队列里。

（3）、主题爬虫流程设计

主题爬虫需要根据一定的网页分析算法，过滤掉与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它会根据一定的搜索策略从待抓取的队列中选择下一个要抓取的URL，并重复上述过程，直到满足系统停止条件为止。所有被抓取网页都会被系统存储，经过一定的分析、过滤，然后建立索引，以便用户查询和检索；这一过程所得到的分析结果可以对以后的抓取过程提供反馈和指导。

主题爬虫的工作流程

*主题爬虫的工作流程

聚焦网络爬虫和通用网络爬虫相比，增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同。

3、增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler)是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减少时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构[包含爬行模块、排序模块、更新模块、本地页面集、爬行 URL 集以及本地页面URL 集]。

增量式爬虫有两个目标：保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为了实现第一个目标，增量式爬虫需要通过重新访问网页来更新本地页面内容，常用的方法有：

(1)、统一更新法：爬虫以相同的频率访问所有网页，不考虑网页的改变频率；

(2)、个体更新法：爬虫根据个体网页的改变频率来重新访问各页面；

(3)、基于分类的更新法：爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类，然后以不同的频率访问这两类网页。

4、Deep Web爬虫(深度爬虫)

Web 页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web，也称 Invisible Web Pages 或 Hidden Web)。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页构成的 Web 页面。Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可访问信息容量是 Surface Web 的几百倍，是互联网上最大、发展最快的新型信息资源。

深度爬虫流程图

*深度爬虫流程图

Deep Web 爬虫体系结构包含六个基本功能模块 (爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS 控制器)和两个爬虫内部数据结构(URL 列表、LVS 表)。其中 LVS(Label Value Set)表示标签/数值集合，用来表示填充表单的数据源。

三、网络爬虫的组成

在网络爬虫的系统框架中，过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页，进行页面的处理，主要是将一些JS脚本标签、CSS代码内容、空格字符、Html标签等内容处理掉，爬虫的基本工作是由解析器完成。资源库是用来存放下载的网页资源，一般都采用大型的数据库存储，并对其建立索引。

1、控制器

控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配线程，然后启动线程调用爬虫爬取网页的过程。

2、解析器

解析器是负责网络爬虫的主要部分，其负责的工作主要有：下载网页的功能，对网页的文本进行处理，过滤功能，抽取特殊HTML标签的功能，分析数据的功能。

3、资源库

主要是用来存储网页中下载下来的数据记录的容器，并提供生成索引的目标源。中大型的数据库产品有：Oracle、SQL Server等。

四、网络爬虫的搜索策略

为了提高工作效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有：IP地址搜索策略、深度优先策略及广度优先策略。

1、IP地址搜索策略

IP地址搜索策略是先给爬虫一个起始的IP地址，然后根据IP地址以递增的方式搜索本IP地址段后的每一个地址中的文档，它完全不考虑各文档中指向其它Web站点的超级链接地址。这种搜索策略的优点是搜索比较全面，因此能够发现那些没被其它文档引用的新文档的信息源；但是缺点是不适合大规模搜索。

2、深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完成后，爬行任务结束。这种策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。

3、广度优先策略：此策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点，不足之处在于需要较长时间才能爬行到目录层次较深的页面。

五、网络爬虫的基本步骤

1、首先选取一部分种子URL；

2、将这些URL放入待抓取URL队列；

3、从待抓取URL队列中取出待抓取的URL,解析DNS，得到主机的IP，并将URL对应的网页下载下来，存储到已下载网页库中，此外，将这些URL放入已抓取URL队列；

4、分析已抓取到的网页内容中的其他URL,并将URL放入待抓取URL队列，从而进入下一个循环。

六、网络爬虫的应用场景

1、搜索引擎抓取网页信息

大家常用的搜索引擎的首要工作流程就是利用网络爬虫去爬取各个网站的页面。以百度蜘蛛为例，一旦有网站的页面更新了，百度蜘蛛就会出动，然后把爬取的页面信息搬回百度，再进行多次的筛选和整理。最终在大家搜索相关信息的时候，通过排名呈现给大家。可以说，没有网络爬虫，我们使用搜索引擎查询资料的时候，就不会那么便捷、全面和高效。

2、爬取需要对数据进行统计

冷数据启动是丰富数据的主要工具，新业务开始时，由于刚起步，所以没有多少数据，此时就需要爬取其他平台的数据来填充我们的业务数据。比如说，如果我们想做一个类似大众点评这样的平台，一开始没有商户等信息，就需要去爬取大众，美团等商家的信息来填充数据，比如天眼查，企查查，西瓜数据等等。

3、出行类软件通过爬虫抢票

如果问网络爬虫技术应用最多的领域是什么？那一定是出行行业。相信每逢春运或是节假日，大家都用过一些抢票的软件，就为了获得一张机票或者是一张火车票，而这种出行类软件正是运用网络爬虫技术来达到抢票的目的。像抢票软件这样的网络爬虫，会不停地爬取交通出行的售票网站，一旦有票就会点击拍下来，放到自己的网站售卖。如果一定时间内没有人购买，就会自动退票。然后又通过网站爬虫把票拍下来，到时间又继续退票，如此反复循环。

4、聚合平台整合信息进行比较。

如今，出现了很多比价平台、聚合电商还有返利平台等，这类聚合平台的本质都是提供横向数据比较，聚合服。比如说电商中经常需要有一种比价系统，从各大电商平台，如拼多多，淘宝，京东等抓取同一个商品的价格信息，以给用户提供最实惠的商品价格，这样就需要利用网络爬虫从各大电商平台爬取信息。