当前位置：首页 > article >正文

webserver的http实现

article 2025/1/6 1:57:16

1、用了状态机，为什么要用状态机？

在逻辑处理模块中，响应的http请求采用主从状态机完成，

传统的控制流程都是按照顺序执行的，状态机能够处理任意顺序的事件，并能提供有意义的响应--即使这些事件发生的顺序和预计的不同。

项目中使用主从状态机的模式进行解析， 从状态机负责读取报文的一行，主状态机负责对该行数据进行解析，主状态机内部调用从状态机，从状态机驱动主状态机。

每解析一部分都会将整个请求的check_state状态改变，状态机也就是根据这个状态来进行不同部分的解析跳转的。

2、状态机的转移图画一下

1、主状态机的三种状态，标志解析位置

REQUESTLINE，解析请求行

HEADER，解析请求头

BODY，解析消息体，仅用于解析POST请求

2、从状态机的状态，标识解析一行的读取状态

ParseRequestLine，完整读取一行，该条件涉及解析请求行和请求头部

ParseHeader，报文语法有误

ParseBody，读取的行不完整

3、处理结果

NO_REQUEST：请求不完整，需要继续读取请求报文数据

GET_REQUEST 获得了完整的HTTP请求

BAD_REQUEST HTTP请求报文有语法错误

INTERNAL_ERROR 服务器内部错误

3、状态机的缺点是什么？

状态机的缺点就是 性能比较低 ，一般一个状态做一个事情，性能比较差，在追求高性能的场景下一般不用，高性能场景一般使用 流水线设计。

4、get和post的区别

get主要用来获取数据，而post是提交或修改数据；

get有长度限制（2048字节）而post没有；

get的参数是显式的，get的参数会附加在url之中，以 “ ？ “分割url和传输数据，多个参数用 “&”连接；而post是隐式的，post是放在请求体中；

get请求会保存在浏览器历史记录中，也可以保存在web服务器日志中；

get在浏览器回退时是无害的，而post会再次提交请求；

get请求只能进行url编码，而post支持多种编码方式；

get请求的参数数据类型只接受ASCII字符，而post没有限制。

5、http请求怎么拆包？

HTTP请求内容：请求行，请求头，空行，请求体

一个有报文的请求到服务器时，请求头里都会有content_length，这个指定了报文的大小。报文如果很大的时候，会通过一部分一部分的发送请求，直到结束。当这个过程中，出现多个请求，第一个请求会带有请求头信息，前面一个请求的发送的报文如果没有满时，会把后面一个请求的内容填上，这个操作就叫粘包。这样粘包后， 它会通过content_length字段的大小，来做拆包。

在post发送大数据量时会分段发，接收端一次接收的只是部分post， 源代码读到len=-1直接开始处理了 ，但实际上还有数据没发过来，在process内判断buffer收到的len和header中的content-length是否匹配，如果不匹配直接返回false，下一个post包发过来接着用buffer收，最后收完了再开始request处理。

6、HTTP的整体流程

浏览器发出http连接请求，主线程创建http对象接收请求同时将所有数据存到对应的buffer，将该对象插入任务队列，工作线程从任务队列中取出一个任务进行处理。

工作线程取出任务后，调用process_read函数，通过主从状态机对请求报文进行解析。

解析完成后，跳转do_request函数生成响应报文，通过process_write写入buffer，返回给浏览器端。

注意：在生成的响应报文中并没有返回消息的具体内容，文件也并不在缓冲区，因此传输的时候采取分块写的方式，一块传输buff里面的内容，另一块传输内存映射的文件指针。