学科分类
目录
网络爬虫

表层爬虫和深层爬虫

Web 页面按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web,也称 Invisible Web Pages 或 Hidden Web)。针对这两种网页的爬虫分别叫做表层爬虫和深层爬虫。

1. 表层爬虫

爬取表层网页的爬虫叫做表层爬虫。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。

2. 深层爬虫

爬取深层网页的爬虫就叫做深层爬虫。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web。

与表层网页相比,深层网页上的数据爬取更加困难,要采用一定的附加策略才能够自动爬取。

深层爬虫爬行过程中最重要部分就是表单填写,包含两种类型:

(1)基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。

(2)基于网页结构分析的表单填写:此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。

点击此处
隐藏目录