NVMe 协议学习笔记

一、Linux NVMe 驱动中的限流：

为了防止 SQ 和 CQ 队列溢出，驱动中基于 tag 实现了一套 IO 限流策略：

NVMe 驱动在初始化时会调用 blk_mq_init_queue 创建用于容纳 request 的 queue，对于每个 queue Linux 驱动中可以为其指定一种用于调度 request 的 elevator 算法（通常包括 kyber、mq-deadline 以及 bfq），算法是通过 blk_mq_init_sched 初始化的，其中指定了 queue 中的 nr_requests 用于限制可容纳的最大请求。

此后其会根据 nr_requests 值去创建一系列 blk_mq_tags 以及 request用于后续发送消息。

在 Linux Block 层创建新的 request 时会通过 blk_mq_get_tag 来判断软件队列 tag 是否有剩余，如果有剩余则下发 IO 到软件缓冲队列中，如果无剩余则循环 sleep 等待。

另外初始化完成后，调度算法会定期的去处理软件缓冲队列，将其中的 request 派发到对应的硬件队列中，具体是通过 blk_mq_dispatch_rq_list 进行派发的，此处通过 __blk_mq_get_driver_tag 判断硬件队列 tag 是否有剩余来进行限流。

如果通过了限流，其就会调用 queue_rq 将其放入到 nvme 的队列中，并写 sq tail doorbell 通知 NVMe 驱动。

可以参考：

Multi-Queue Block IO Queueing Mechanism (blk-mq) — The Linux Kernel documentation

6.7.0-rc7

https://docs.kernel.org/block/blk-mq.html

linux内核block层Multi queue多队列核心点分析_struct blk_mq_hw_ctx-CSDN博客

文章浏览阅读7.4k次，点赞35次，收藏100次。内核块设备层单队列时代，我们IO传输的底层函数是一切从submit_bio开始 submit_bio->generic_make_request-> blk_queue_bio。如果看多相关源码，会发现经常用到q->queue_lock自旋锁，在IO发送过程、IO传输完成、IO合并都有。多核多进程IO传输时，会在q->queue_lock锁上自旋等待浪费不少时间，内核引入Multi queue多队列架构应该就是为了解决这个问题。Multi queue多队列架构主要有两个数据结构:每个_struct blk_mq_hw_ctx

https://blog.csdn.net/hu1610552336/article/details/111464548

Linux NVMe Driver学习笔记之9: nvme_reset_work压轴大戏-CSDN博客

文章浏览阅读1.3k次。这篇文章紧接上回分解，在nvme_probe函数的最后一步调用nvme_reset_work进行reset操作，nvme_reset_work的主要工作可以概括如下几个步骤：_nvme_reset_work

https://blog.csdn.net/zhuzongpeng/article/details/127604503?ops_request_misc=%7B%22request%5Fid%22%3A%22170366806016800188527427%22%2C%22scm%22%3A%2220140713.130102334.pc%5Fblog.%22%7D&request_id=170366806016800188527427&biz_id=0

二、NVMe 中的 SQ 和 CQ：

他们队列是初始化在主机内存中的，因此控制器是只写的，而他们的寄存器则是初始化在控制器中的，因此主机是只读的。于是需要特殊的通信逻辑，对于 SQ 来讲，主机通过写 SQTD 寄存器来告知控制器有新的 SQE，但它不能读取 SQHD，因此 Head 是通过控制器写的每一个 CQE 中的 SQHP 字段来上报的。而对于 CQ 来讲，主机可以通过写 CQHD 来告知控制器消费到了哪里，而 Tail 则是由控制器发送 CQE 时的 Phase 字段来确定的，CQ 第一轮会被写 1，第二轮就被写 0，循环往复，主机通过检查 CQE 的 Phase 字段是否被翻转就可以知道 Tail 的位置了。