Sitemap.xml文件
为了方便网站管理员通知爬虫遍历和更新网站的内容,而无需爬取每个网页,网站提供了Sitemap.xml文件(网站地图)。如果想要了解更多相关的信息,可以从https://www.sitemaps.org/protocol.html
网页获取。
在Sitemap.xml文件中,列出了网站中的网址及每个网址的其它元数据,比如上次更新的时间、更改的频率及相对于网站上其它网址的重要程度等,以便于爬虫可以更加智能地抓取网站。
例如,下面是一个Sitemap.xml文件的示例:
<?xml version="1.0"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.uedsc.com/tag/2d%e5%8f%98%e6%8d%a2</loc>
<lastmod>2017-12-20T18:31:43+00:00</lastmod>
<changefreq>weekly</changefreq>
<priority>0.3</priority>
</url>
</urlset>
注意:
尽管Sitemap.xml文件提供了爬取网站的有效方式,但仍需要对其谨慎对待,这是因为该文件经常会出现缺失或过期的问题。