搜档网
当前位置:搜档网 › HTTP协议解析-协议结构和HTTP头

HTTP协议解析-协议结构和HTTP头

Web之http协议(三)

一、http报文首部

http协议中请求报文和响应报文都包括了http首部,这个首部是服务器和客户端处理请求和响应提供所需的信息,是客户端与服务器交互的基础。

http的请求报文由方法、URI、HTTP 版本、HTTP 首部字段等部分构成。

http的响应报文由HTTP 版本、状态码(数字和原因短语)、HTTP 首部字段3 部分构成。

在报文众多的字段当中,HTTP 首部字段包含的信息最为丰富。首部字段同时存在于请求和响应报文内,并涵盖HTTP 报文相关的内容信息。

二、HTTP 首部字段

http首部字段是http报文的构成因素之一,它是客户端与服务器端进行通信的标准。客户端使用http首部说明需要的报文主体大小,所使用的语言,认证信息等。服务器端则使用首部告诉客户端,返回的报文主体是什么东西,报文主体的大小等信息。可以说首部字段是十分重要。

1.首部字段的结构

首部字段的结构,通常的情况是由首部字段跟首部字段的值组成。例如:

Content-Type:text\html,也就是首部字段:首部字段值这样子的结构。

另外如果首部字段有多个值是则用都好隔开。例如:Keep-Alive:timeout=15,max=100 2.首部字段的类型

HTTP 首部字段根据实际用途被分为以下4 种类型。

通用首部字段(General Header Fields)

请求报文和响应报文两方都会使用的首部。

请求首部字段(Request Header Fields)

从客户端向服务器端发送请求报文时使用的首部。补充了请求的附加内容、客户端信息、响应内容相关优先级等信息。

响应首部字段(Response Header Fields)

从服务器端向客户端返回响应报文时使用的首部。补充了响应的附加内容,也会要求客户端附加额外的内容信息。

实体首部字段(Entity Header Fields)

针对请求报文和响应报文的实体部分使用的首部。补充了资源内容更新时间等与实体有关的信息。

通用首部字段

首部字段名称说明

Cache-Control 控制缓存的行为

Connection 逐跳首部、链接的管理

Date 报文的创建日期时间

Pragma 报文指令

Trailer 报文末端的首部一览

Transfer-Encoding 指定报文主体的传输编码方式

Upgrade 升级为其他协议

Via 代理服务器的相关信息

Warning 错误通知

请求首部字段

首部字段名说明

Accept 用户代理可处理的媒体类型

Accept-Charset 优先的字符集

Accept-Encoding 优先的内容编码

Accept-Language 优先的语言(自然语言)

Authorization Web认证信息

Expect 期待服务器的特定行为

From 用户的电子邮箱地址

Host 请求资源所在服务器

If-Match 比较实体标记(ETag)

If-Modified-Since 比较资源的更新时间

If-None-Match 比较实体标记(与If-Match 相反)

If-Range 资源未更新时发送实体Byte 的范围请求

If-Unmodified-Since 比较资源的更新时间(与If-Modified-Since相反)

Max-Forwards 最大传输逐跳数

Proxy-Authorization 代理服务器要求客户端的认证信息

Range 实体的字节范围请求

Referer 对请求中URI 的原始获取方

TE 传输编码的优先级

User-Agent HTTP 客户端程序的信息

响应首部字段

首部字段名说明

Accept-Ranges 是否接受字节范围请求

Age 推算资源创建经过时间

ETag 资源的匹配信息

Location 令客户端重定向至指定URI

Proxy-Authenticate 代理服务器对客户端的认证信息

Retry-After 对再次发起请求的时机要求

Server HTTP 服务器的安装信息

Vary 代理服务器缓存的管理信息

WWW-Authenticate 服务器对客户端的认证信息

实体首部字段

首部字段名说明

Allow 资源可支持的HTTP方法

Content-Encoding 实体主体适用的编码方式

Content-Language 实体主体的自然语言

Content-Length 实体主体的大小(单位:字节)

Content-Location 替代对应资源的URI

Content-MD5 实体主体的报文摘要

Content-Range 实体主体的位置范围

Content-Type 实体主体的媒体类型

Expires 实体主体过期的日期时间

Last-Modified 资源的最后修改日期时间

3.End-to-end 首部和Hop-by-hop 首部

端到端首部(End-to-end Header)

分在此类别中的首部会转发给请求/ 响应对应的最终接收目标,且必须保存在由缓存生成的响应中,另外规定它必须被转发。

逐跳首部(Hop-by-hop Header)

分在此类别中的首部只对单次转发有效,会因通过缓存或代理而不再转发。HTTP/1.1 和之后版本中,如果要使用hop-by-hop 首部,需提供Connection 首部字段。

下面列举了HTTP/1.1 中的逐跳首部字段。除这8 个首部字段之外,其他所有字段都属于端到端首部。

?Connection

?Keep-Alive

?Proxy-Authenticate

?Proxy-Authorization

?Trailer

?TE

?Transfer-Encoding

?Upgrade

三、首部字段详解

1.通用首部字段

(1)Cache-Control 缓存指令

通过指定首部字段Cache-Control 的指令,就能操作缓存的工作机制,指令的参数是可选的,多个指令之间通过“,”分隔。首部字段Cache-Control 的指令可用于请求及响应时。

请求时的指令

响应时的指令

关于缓存的扩展阅读:

简单介绍了浏览器缓存、网关/代理服务器缓存、页面缓存、数据缓存、数据库缓存、

(2)Connection

Connection的两个作用控制不再转发给代理的首部字段,管理持久连接。

1.控制不再转发给代理的首部字段:在客户端发送请求和服务器返回响应内,使用Connection 首部字段,可控制不再转发给代理的首部字段(即 Hop-by-hop 首部)。Connection: 不再转发的首部字段名

2.管理持久连接:HTTP/1.1 版本的默认连接都是持久连接。为此,客户端会在持久连接上连续发送请求。当服务器端想明确断开连接时,则指定 Connection 首部字段的值为Close。Connection:Keep-Alive为持久化连接。

(3)Date

首部字段 Date 表明创建 HTTP 报文的日期和时间。

(4)Pragma

与Cache-Control字段差不多,在http1.1以后不推荐使用。

(5)Trailer

首部字段 Trailer 会事先说明在报文主体后记录了哪些首部字段。该首部字段可应用在 HTTP/1.1 版本分块传输编码时。指定首部字段 Trailer 的值为 Expires,在报文主体之后(分块长度 0 之后)出现了首部字段 Expires。

(6)Transfer-Encoding

首部字段 Transfer-Encoding 规定了传输报文主体时采用的编码方式。HTTP/1.1 的传输编码方式仅对分块传输编码有效。

(7)Upgrade

首部字段 Upgrade 用于检测 HTTP 协议及其他协议是否可使用更高的版本进行通信,其参数值可以用来指定一个完全不同的通信协议。

(8)Via

使用首部字段 Via 是为了追踪客户端与服务器之间的请求和响应报文的传输路径。

(9)Warning

告知用户一些与缓存相关的问题的警告。

Warning: [警告码][警告的主机:端口号]“[警告内容]”([日期时间])

HTTP/1.1定义了7种警告码:

2.请求首部字段

请求首部字段是从客户端往服务器端发送请求报文中所使用的字段,用于补充请求的附加信息、客户端信息、对响应内容相关的优先级等内容。

(1)Accept

Accept 首部字段可通知服务器,用户代理能够处理的媒体类型及媒体类型的相对优先级。可使用type/subtype 这种形式,一次指定多种媒体类型。

?文本文件

text/html, text/plain, text/css ...

application/xhtml+xml, application/xml ...

?图片文件

image/jpeg, image/gif, image/png ...

?视频文件

video/mpeg, video/quicktime ...

?应用程序使用的二进制文件

application/octet-stream, application/zip ...

(2)Accept-Charset

Accept-Charset 首部字段可用来通知服务器用户代理支持的字符集及字符集的相对优先顺序。另外,可一次性指定多种字符集。与首部字段Accept 相同的是可用权重q 值来表示相对优先级。

(3)Accept-Encoding

Accept-Encoding 首部字段用来告知服务器用户代理支持的内容编码及内容编码的优先级顺序。一般的编码形式有:gzip,compress,deflate,identity

(4)Accept-Language

首部字段Accept-Language 用来告知服务器用户代理能够处理的自然语言集(指中文或英文等),以及自然语言集的相对优先级。可一次指定多种自然语言集。

(5)Authorization

首部字段Authorization 是用来告知服务器,用户代理的认证信息(证书值)。通常,想要通过服务器认证的用户代理会在接收到返回的401 状态码响应后,把首部字段Authorization 加入请求中。

(6)Expect

客户端使用首部字段Expect 来告知服务器,期望出现的某种特定行为。

(7)From

首部字段From 用来告知服务器使用用户代理的用户的电子邮件地址。

(8)Host

首部字段Host 会告知服务器,请求的资源所处的互联网主机名和端口号。Host 首部字段在HTTP/1.1 规范内是唯一一个必须被包含在请求内的首部字段。

(9)If-Match

形如If-xxx 这种样式的请求首部字段,都可称为条件请求。服务器接收到附带条件的请求后,只有判断指定条件为真时,才会执行请求。

(10)If-Modified-Since

首部字段If-Modified-Since,属附带条件之一,它会告知服务器若If-Modified-Since 字段值早于资源的更新时间,则希望能处理该请求。而在指定If-Modified-Since 字段值的日期时间之后,如果请求的资源都没有过更新,则返回状态码304 Not Modified 的响应。

(11)If-None-Match

首部字段If-None-Match 属于附带条件之一。它和首部字段If-Match 作用相反。用于指定If-None-Match 字段值的实体标记(ETag)值与请求资源的ETag 不一致时,它就告知服务器处理该请求。

(12)If-Range

首部字段If-Range 属于附带条件之一。它告知服务器若指定的If-Range 字段值(ETag 值或者时间)和请求资源的ETag 值或时间相一致时,则作为范围请求处理。反之,则返回全体资源。

(13)If-Unmodified-Since

首部字段If-Unmodified-Since 和首部字段If-Modified-Since 的作用相反。它的作用的是告知服务器,指定的请求资源只有在字段值内指定的日期时间之后,未发生更新的情况下,才能处理请求。如果在指定日期时间后发生了更新,则以状态码412 Precondition Failed 作为响应返回。

(14)Max-Forwards

通过TRACE 方法或OPTIONS 方法,发送包含首部字段Max-Forwards 的请求时,该字段以十进制整数形式指定可经过的服务器最大数目。服务器在往下一个服务器转发请求之前,Max-Forwards 的值减1 后重新赋值。当服务器接收到Max-Forwards 值为0 的请求时,则不再进行转发,而是直接返回响应。

(15)Proxy-Authorization

接收到从代理服务器发来的认证质询时,客户端会发送包含首部字段Proxy-Authorization 的请求,以告知服务器认证所需要的信息。

(16)Range

对于只需获取部分资源的范围请求,包含首部字段Range 即可告知服务器资源的指定范围。上面的示例表示请求获取从第5001 字节至第10000 字节的资源。

(17)Referer

首部字段Referer 会告知服务器请求的原始资源的URI。

(18)TE

首部字段TE 会告知服务器客户端能够处理响应的传输编码方式及相对优先级。它和首部字段Accept-Encoding 的功能很相像,但是用于传输编码。

(19)User-Agent

首部字段User-Agent 会将创建请求的浏览器和用户代理名称等信息传达给服务器。由网络

爬虫发起请求时,有可能会在字段内添加爬虫作者的电子邮件地址。此外,如果请求经过代理,那么中间也很可能被添加上代理服务器的名称。

3.响应首部字段

响应首部字段是由服务器端向客户端返回响应报文中所使用的字段,用于补充响应的附加信息、服务器信息,以及对客户端的附加要求等信息。

(1)Accept-Ranges

首部字段Accept-Ranges 是用来告知客户端服务器是否能处理范围请求,以指定获取服务器端某个部分的资源。可指定的字段值有两种,可处理范围请求时指定其为bytes,反之则指定其为none。

(2)Age

首部字段Age 能告知客户端,源服务器在多久前创建了响应。字段值的单位为秒。

(3)ETag

首部字段 ETag 能告知客户端实体标识。它是一种可将资源以字符串形式做唯一性标识的方式。服务器会为每份资源分配对应的 ETag 值。另外,当资源更新时,ETag 值也需要更新。生成 ETag 值时,并没有统一的算法规则,而仅仅是由服务器来分配。

(4)Location

使用首部字段 Location 可以将响应接收方引导至某个与请求 URI 位置不同的资源。(5)Proxy-Authenticate

首部字段 Proxy-Authenticate 会把由代理服务器所要求的认证信息发送给客户端

(6)Retry-After

首部字段 Retry-After 告知客户端应该在多久之后再次发送请求。主要配合状态码 503 Service Unavailable 响应,或 3xx Redirect 响应一起使用。

(7)Server

首部字段 Server 告知客户端当前服务器上安装的 HTTP 服务器应用程序的信息

(8)Vary

首部字段 Vary 可对缓存进行控制。源服务器会向代理服务器传达关于本地缓存使用方法的命令。

(9)WWW-Authenticate

首部字段 WWW-Authenticate 用于 HTTP 访问认证。它会告知客户端适用于访问请求 URI 所指定资源的认证方案(Basic 或是 Digest)和带参数提示的质询(challenge)。状态码401 Unauthorized 响应中,肯定带有首部字段 WWW-Authenticate。

4.实体首部字段

实体首部字段是包含在请求报文和响应报文中的实体部分所使用的首部,用于补充内容的更新时间等与实体相关的信息

(1)Allow

首部字段 Allow 用于通知客户端能够支持 Request-URI 指定资源的所有 HTTP 方法。(2)Content-Encoding

首部字段 Content-Encoding 会告知客户端服务器对实体的主体部分选用的内容编码方式。(3)Content-Language

首部字段 Content-Language 会告知客户端,实体主体使用的自然语言

(4)Content-Length

首部字段 Content-Length 表明了实体主体部分的大小(单位是字节)。

(5)Content-Location

首部字段 Content-Location 给出与报文主体部分相对应的 URI。和首部字段 Location 不同,Content-Location 表示的是报文主体返回资源对应的 URI。

(6)Content-MD5

首部字段 Content-MD5 是一串由 MD5 算法生成的值,其目的在于检查报文主体在传输过程中是否保持完整,以及确认传输到达。

(7)Content-Range

针对范围请求,返回响应时使用的首部字段 Content-Range,能告知客户端作为响应返回的实体的哪个部分符合范围请求。字段值以字节为单位,表示当前发送部分及整个实体大小。(8)Content-Type

首部字段 Content-Type 说明了实体主体内对象的媒体类型。

(9)Expires

首部字段 Expires 会将资源失效的日期告知客户端。

(10)Last-Modified

首部字段 Last-Modified 指明资源最终修改的时间。

5.为cookies服务的首部字段

管理服务器与客户端之间状态的 Cookie,虽然没有被编入标准化 HTTP/1.1 的 RFC2616 中,但在 Web 网站方面得到了广泛的应用。

(1)Set-Cookie

当服务器准备开始管理客户端的状态时,会事先告知各种信息。一共有6种属性:NAME=VALUE (用以设置cookies的名称与值),expires=DATE(cookies的有效期),path=PATH(将服务器上的文件目录作为cookies的适用对象),domain=域名(cookies适用对象域名),Secure(仅在https通信才发送cookies),HttpOnly(使cookies不能被javascript脚本访问)

(2)Cookie

首部字段 Cookie 会告知服务器,当客户端想获得 HTTP 状态管理支持时,就会在请求中包含从服务器接收到的 Cookie。接收到多个 Cookie 时,同样可以以多个 Cookie 形式发送。

6.其他首部字段

(1)X-Frame-Options

首部字段 X-Frame-Options 属于 HTTP 响应首部,用于控制网站内容在其他 Web 网站的 Frame 标签内的显示问题。其主要目的是为了防止点击劫持(clickjacking)攻击。DENY :拒绝,SAMEORIGIN :仅同源域名下的页面(Top-level-browsing-context)匹配时许可。(2)X-XSS-Protection

首部字段 X-XSS-Protection 属于 HTTP 响应首部,它是针对跨站脚本攻击(XSS)的一种对策,用于控制浏览器 XSS 防护机制的开关。0 :将 XSS 过滤设置成无效状态, 1 :将 XSS 过滤设置成有效状态。

(3)DNT

首部字段 DNT 属于 HTTP 请求首部,其中 DNT 是 Do Not Track 的简称,意为拒绝个人信息被收集,是表示拒绝被精准广告追踪的一种方法。0 :同意被追踪,1:拒绝被追踪(4)P3P

首部字段P3P 属于HTTP 相应首部,通过利用P3P(The Platform for Privacy Preferences,在线隐私偏好平台)技术,可以让 Web 网站上的个人隐私变成一种仅供程序

可理解的形式,以达到保护用户隐私的目的。

相关主题