学科分类
目录
网络爬虫

Sitemap.xml文件

为了方便网站管理员通知爬虫遍历和更新网站的内容,而无需爬取每个网页,网站提供了Sitemap.xml文件(网站地图)。如果想要了解更多相关的信息,可以从https://www.sitemaps.org/protocol.html网页获取。

在Sitemap.xml文件中,列出了网站中的网址及每个网址的其它元数据,比如上次更新的时间、更改的频率及相对于网站上其它网址的重要程度等,以便于爬虫可以更加智能地抓取网站。

例如,下面是一个Sitemap.xml文件的示例:

<?xml version="1.0"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
  <loc>http://www.uedsc.com/tag/2d%e5%8f%98%e6%8d%a2</loc>
   <lastmod>2017-12-20T18:31:43+00:00</lastmod>
  <changefreq>weekly</changefreq>
  <priority>0.3</priority>
</url>
</urlset>

注意:

尽管Sitemap.xml文件提供了爬取网站的有效方式,但仍需要对其谨慎对待,这是因为该文件经常会出现缺失或过期的问题。

点击此处
隐藏目录