浅析HTTP

HTTP简介

HTTP 是超⽂文本传输协议,即HyperText Transfer Protocol.

正如其名,HTTP可以分为以下三个部分:

  • 超文本
  • 传输
  • 协议

它们之间的关系如下:

image-20210413214817316
image-20210413214817316

超文本

在互联⽹网早期的时候文本仅仅指代只是简单的字符⽂字,但现在文本的涵义已经可以扩展为图片、视频、压缩包等,在 HTTP 眼⾥里这些都算作文本。

超文本就是超过普通文本的一种文本,它是⽂字、图片、视频等的混合体,最关键有超链接,能从一个超⽂文本跳转到另外一个超文本。

比如说常见的HTML就是一个超文本,它本身是纯文本文件,但是其中可以使用标签来定义图片、视频的链接,再通过浏览器对它进行解析,就能得到一个文字、画面共存的网页了。

传输

传输就是把一堆东西从一个地方搬到另一个地方,在网络上体现为服务器、客户端之间的数据交换。我们在浏览网页的时候,浏览器是请求⽅方 ,网站就是应答⽅。双方约定用 HTTP 协议来通信,于是浏览器把请求数据发送给网站,网站再把一些数据返回给浏览器,最后由浏览器渲染在屏幕,就可以看到图片、视频了。

协议

协议代表的是对参与者的一种行为约定和规范。

HTTP是一个用在计算机世界里的协议。它使用计算机能够理解的语言确立了一种计算机之间交流通信的规范(两个以上的参与者),以及相关的各种控制和错误处理方式(行为约定和规范)。

最终可以将HTTP简单定义为:一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据 的约定和规范


HTTTP的常见状态码

HTTP常见的状态码有以下五大类:

状态码 含义 示例
1xx 提示信息,表示目前是协议处理的中间状态,还需进行后续操作
2xx 成功,报文已接收并被正确处理 200、204、206
3xx 重定向,资源位置发生变动,需要客户端重新发送请求 301、302、304
4xx 客户端错误,请求报文有误,服务器无法处理 400、403、404
5xx 服务器错误,服务器在请求时内部发生了错误 500、501、502、503

示例解析:

1xx

此类状态码属于提示信息,是协议处理中的一种中间状态,实际用到的比较少。

2xx

此类状态码表示服务器成功处理了客户端的请求,也是我们最愿意看到的状态。

200 OK 请求成功。一般用于GET与POST请求。

201 Created 已创建。成功请求并创建了新的资源。

202 Accepted 已接受。已经接受请求,但未处理完成。

3xx

301 Moved Permanently 表示永久重定向,说明请求的资源已经不存在了,需改用新的URL再次访问。

302 Found 表示临时重定向,说明请求的资源还在,但暂时需要⽤用另一个 URL 来访问。

304 Not Modified 不具有跳转的含义,表示资源未修改,重定向已存在的缓冲⽂文件,也称缓存重定向,用于缓存控制。

305 Use Proxy 使用代理。所请求的资源必须通过代理访问。

306 Unused 已经被废弃的HTTP状态码。

4xx

400 Bad Reques 表示客户端请求的报文有错误,但只是个笼统的错误。

401 Unauthorized 请求要求用户的身份认证。

402 Payment Required 保留,将来使用。

403 Forbidden 表示服务器禁止访问资源,并不是客户端的请求出错。

404 Not Found 表示请求的资源在服务器上不存在或未找到,所以无法提供给客户端。

405 Method Not Allowed 客户端请求中的方法被禁止。

406 Not Acceptable 服务器无法根据客户端请求的内容特性完成请求。

408 Request Time-out 服务器等待客户端发送的请求时间过长,超时。

5xx

500 Internal Server Error 与 400 类型,是个笼统通用的错误码,服务器发生了什么错误,我们并不知道。

501 Not Implemented 表示客户端请求的功能还不支持。

502 Bad Gateway 通常是服务器作为网关或代理时返回的错误码,表示服务器自身工作正常,访问后端服务器发生了错误。

503 Service Unavailable 表示服务器当前很忙,暂时无法响应服务器。

504 Gateway Time-out 充当网关或代理的服务器,未及时从远端服务器获取请求。

505 HTTP Version not supported 服务器不支持请求的HTTP协议的版本,无法完成处理。


HTTP的常见字段

Host

Host 的作用是客户端发送请求时,用来指定服务器的域名。例如Host: www.baidu.com.

Content-Length

服务器在返回数据时,会有Content-Length字段,表明本次回应的数据长度。Content-Length: 1000

Connection

Connection字段最常用于客户端要求服务器使用 TCP 持久连接,以便其他请求复用。Connection: keep-alive

Content-Type

用于服务器回应时,告诉客户端,本次数据是什么格式。Content-Type: text/html; charset=utf-8

Accept

客户端请求的时候,可以使用Accept字段声明自己可以接受哪些数据格式。Accept: */*表明接受任何格式的数据。

Content-Encoding

说明数据的压缩⽅方法。表示服务器返回的数据使⽤用了什么压缩格式。Content-Encoding: gzip

Accept-Encoding

客户端在请求时,⽤用Accept-Encoding字段说明自己可以接受哪些压缩方法。Accept-Encoding: gzip, deflate


GET方法与POST方法

GET

Get为获取的意思,此方法的含义是请求从服务器获取资源,这个资源可以是静态的文本、页面、图片视频等。

当打开一个网页,浏览器就会发送Get请求到服务器,服务器将会返回文本及资源。

Post

此方法是想服务器提交数据,具体内容放在报文的body里面,与请求头拼接在一起发送给服务器。

两者安全且等幂?

  • 安全指的是请求方法不会破坏服务器上的资源
  • 等幂指的是多次执行相同的操作,结果都是相同的

显然,Get方法是安全且等幂的,Post方法是不安全且不等幂的。


HTTP 与 HTTPS

HTTP 由于是明文传输,所以安全上存在以下三个风险:

  • 窃听风险,比如通信链路路上可以获取通信内容,用户号容易被盗。
  • 篡改风险,比如强制植入垃圾广告,视觉污染。
  • 冒充风险,比如冒充淘宝网等购物网站。

HTTPS在 HTTP 与 TCP 层之间加入了SSL/TLS协议,可以很好的解决了上述的风险。

HTTPS(全称:Hyper Text Transfer Protocol over SecureSocket Layer),主要由两部分组成:HTTP + SSL / TLS,也就是在 HTTP 上又加了一层处理加密信息的模块。服务端和客户端的信息传输都会通过 TLS 进行加密,所以传输的数据都是加密后的数据。

HTTPS工作流程

  1. 客户端将它所支持的算法列表和一个用作产生密钥的随机数发送给服务器;
  2. 服务器从算法列表中选择一种加密算法,并将它和一份包含服务器公用密钥的证书发送给客户端;该证书还包含了用于认证目的的服务器标识,服务器同时还提供了一个用作产生密钥的随机数;
  3. 客户端对服务器的证书进行验证(有关验证证书,可以参考数字签名),并抽取服务器的公用密钥;然后,再产生一个称作 pre_master_secret 的随机密码串,并使用服务器的公用密钥对其进行加密(参考非对称加 / 解密),并将加密后的信息发送给服务器;
  4. 客户端与服务器端根据 pre_master_secret 以及客户端与服务器的随机数值独立计算出加密和 MAC密钥(参考 DH密钥交换算法);
  5. 客户端将所有握手消息的 MAC 值发送给服务器
  6. 服务器将所有握手消息的 MAC 值发送给客户端

HTTPS的优缺点

  • 优点:确保数据发送到正确的客户机和服务器,防止数据在传输过程中被窃取、改变,确保数据的完整性。
  • 缺点:页面的加载时间延长近 50%,影响缓存,增加数据开销和功耗,增加成本;HTTPS 协议的安全是有范围的,在黑客攻击、拒绝服务攻击和服务器劫持等方面几乎起不到什么作用。