学科分类
目录
网络爬虫

统一资源定位符URL

URL(Uniform Resource Locator,统一资源定位符)是互联网上标准资源的地址,互联网上每个文件(即资源)都有一个唯一的URL,它包含了文件的位置以及浏览器处理方式等信息。

URL地址由协议头、服务器地址、文件路径三部分组成。比如,一个典型的URL地址http://127.0.0.1:8080/subject/pythonzly/index.shtml,其组成部分如图1所示。

img

图1 URL示例

1.协议头(Protocol Head)

协议头指定使用的传输协议,用于告诉浏览器如何处理将要打开的文件。不同的协议表示不同的资源查找以及传输方式。网络上常用的协议如表1所示。

表1 URL常见的协议

常见协议 代表类型 示例
file 访问本地计算机的资源 file:///Users/itcast/Desktop/basic.html
ftp 访问共享主机的文件资源 ftp://ftp.baidu.com/movies
http 超文本传输协议, 访问远程网络资源 http://image.baidu.com/channel/wallpaper
https 安全的ssl加密传输协议,访问远程网络资源 https://image.baidu.com/channel/wallpaper
mailto 访问电子邮件地址 mailto:null@itcast.cn

其中最常用的是HTTP协议和HTTPS协议,分别由协议头http和https指定。

2.服务器地址(Hostname或IP)和端口(Port)

服务器地址指存放资源的服务器的主机名或者IP地址,其目的在于标识互联网上的唯一一台计算机,通过这个地址来找到这台计算机。

端口是在地址和冒号后面的数字,用于标识在一台计算机上运行的不同程序。每个网络程序,都对应一个或多个特定的端口号,例如HTTP程序的默认端口号为80,HTTPS程序的默认端口号为443。

IP地址被用来给Internet上的每台电脑一个编号,但是IP地址不容易记忆,而且服务器的物理IP地址是有可能发生改变的。为此,人们又发明了域名来替代IP地址访问服务器的网站。例如,使用百度公司所在的IP地址“http://180.97.33.107”可以打开百度的首页,但是这个地址不易记忆,不如使用域名网址http://www.baidu.com访问来的方便。

3.路径(Path)

路径是由0或者多个“/”符号隔开的字符串,一般用于指定本次请求的资源在服务器中的位置。

点击此处
隐藏目录