vLLM 架构源码解析（一）：从 API 请求到 Token 生成

Posted on 2026-07-06 Edited on 2026-07-07 In AI Infra , vLLM

系列文章：vLLM 架构源码解析 | 第 1 篇 / 共 4 篇
日期：2026-07-06
源码版本：vLLM v0.6.x (commit 98ba9b9)

1. 引言：为什么 vLLM 能提速 10-24 倍？

vLLM 是 UC Berkeley 于 2023 年推出的高性能 LLM 推理引擎。相比 HuggingFace Transformers，在相同硬件上可以达到：

吞吐量提升 10-24 倍（官方 benchmark，A100-80GB）
延迟降低 50-70%（批量推理场景）
显存利用率提升 2-4 倍（从 20% 提升到 80%+）

如何写一个 Agent：从最小 Runtime 到 Coding Agent

Posted on 2026-06-10 Edited on 2026-07-07 In Agent

最近整理了一份关于“如何写一个 Agent”的学习路径。学习之后最大的感受是：Agent 不是一段更长的 prompt，也不是把几个工具随便接到模型后面，而是一个可控的 runtime。这个 runtime 至少包含模型决策循环、工具调用、状态管理、权限边界、上下文管理和终止条件。

从大模型到 TPU 执行：框架、算子、内核、DLC、vLLM 与 Linux 内核

Posted on 2026-06-10 Edited on 2026-07-07 In AI Infra , TPU

最近在梳理大模型基础设施的系统分层图：大模型、深度学习框架、Tensor、算子、算子内核、DLC/编译器、vLLM、TPU Runtime、Linux 内核和 TPU 硬件分别处在哪一层，各自解决什么问题。

这篇文章试图用更工程化的方式回答这个问题。最核心的关系是：大模型定义计算目标，框架表达计算图，算子定义数学语义，算子内核定义硬件实现，编译器/DLC 生成目标硬件可执行产物，vLLM 管理在线推理调度与 KV cache，Runtime 通过 Linux TPU 驱动把任务提交给 TPU 执行。

中断设置和键鼠处理

Posted on 2024-06-23 Edited on 2026-07-07 In 30daysOS , CS

VGA 设定

首先简单看待调色板设定的相关程序，具体可以参考下面的链接：

void set_palette(int start, int end, unsigned char *rgb) {
  int eflags = io_load_eflags(); // 记录标志

  io_cli(); // 禁止中断

  io_out8(0x03c8, start); // vga 设定，参考：https://wiki.osdev.org/VGA_Hardware
  for (int i = start; i <= end; i++) {
    io_out8(0x03c9, rgb[0] / 4);
    io_out8(0x03c9, rgb[1] / 4);
    io_out8(0x03c9, rgb[2] / 4);
    rgb += 3;
  }

  io_store_eflags(eflags);
}

GDT&IDT

GDT

“global segment descriptor table”，全局段号记录表。将段号记录在内存的某个地方，然后将内存的起始地址和有效设定个数放在CPU的GDTR的（global segment descriptor table register）特殊寄存器中。段寄存器是16位，但是由于cpu设定原因，低3位不可用，所以真正可以使用的位数为13位，即可以分为8192个段。

初识操作系统（启动区和初始化）

Posted on 2024-06-02 Edited on 2026-07-07 In 30daysOS , CS

工具介绍

GCC: GNU Compiler Collection, 可以编译多语言的编译器。编译流程：预处理->编译->汇编->链接。
- 参考：
  
  介绍：https://www.cnblogs.com/QG-whz/p/5456720.html
  
  GCC官网：https://gcc.gnu.org/onlinedocs/gcc/index.html

NASM：NASM是一个为可移植性与模块化而设计的一个80x86的汇编器。文件格式为 xx.asm
- 参考：
  
  官方手册：https://www.nasm.us/xdoc/2.16.03/html/nasmdoc0.html
QEMU: 一个开源的计算机仿真器和虚拟器。可以模拟不同架构的处理器（arm、x86、risc-v），也可以作为虚拟机使用
- 参考：
  
  官方文档：https://www.qemu.org/docs/master/about/index.html
MAKEFILE: 批处理工具，可以通过其指定如何编译链接文件
- 参考：http://makefiletutorial.foofun.cn/#%E6%9C%89%E4%BB%80%E4%B9%88%E6%9B%BF%E4%BB%A3%E6%96%B9%E6%A1%88%EF%BC%9F

指令集基本原理

Posted on 2024-05-26 Edited on 2026-07-07 In CAAQA , CS

计算机体系结构背景

简单介绍一下，计算机体系结构狭义上是指关于指令集的设计（广义上的概念会在下一篇中定义），从我们学习的各种编程语言出发，向上是各种应用的编写，向下是程序语言如何编译成计算机所能执行的二进制文件，这里就需要和指令集打交道。高级语言一般不涉及到内存和硬件，在编译过程中指令集的体系结构会起到相当大的影响，比如调用指令集的ADD方法，在不同的指令集中有不同的实现，包括是否使用寄存器，使用多少寄存器，这会影响到程序执行速度以及程序的大小，体系结构也是主要是指令集的设计。

桌面计算机强调涉及整数和浮点数类型的程序性能，很少考虑程序规模。
服务器主要用于数据库、文件服务器和WEB应用，浮点性能的重要性远低于整数和字符串。
个人移动设备和嵌入式应用看中成本和消耗。

How to think about psychology 11-12

Posted on 2021-06-02 Edited on 2026-07-07 In Psychology , How to think about psychology

这才是心理学（11-12）How to think about psychology

接近一周的对于这本心理学入门的书籍进行的笔记也结束了，后续会针对整本书进行一个总结和回顾吧。

第十一章偶然性

本章继续第10章介绍的概率，单独将概率中的偶然性拿出来进行讨论。

首先，作者介绍了人们为什么对偶然性执迷不悟，同时指出偶然性的危害。

人类大脑的进化方式，使得人类不懈地寻求世界中的各种模式，这也是人类智力的特征，促使了人类在信息处理和知识获取方面取得了辉煌的成就。但是，这种对于偶然性解释的进化，有时也会产生不好的效果。如一些金融分析师试图对每一次股市价格的微小波动做出解释，但是这种波动大部分情况下都是随机的，他们的执着于解释这些是为了让人们相信他们可以打败市场。同时即使有些人真的预测到一些变化，这种预测也是不可靠的。简单来说，假设将预测分为下跌和上涨两种情况，有1000人对第一次变化进行了预测，那么就会有500人可以对这次变化成功预测，这500人接着对第二次变化进行了预测，那么就会有250人对第二次变化成功预测，直到进行到第四次预测，那么仍然会有60人左右连着预测正确四次。因此，从概率上来说，总会有人在接下来的预测取得了成功，但是这些是不可靠的。

How to think about psychology 8-10

Posted on 2021-06-01 Edited on 2026-07-07 In Psychology , How to think about psychology

这才是心理学（8-10）How to think about psychology

第八章关联性和聚合性

爱因斯坦综合征：认为所有科学的进步都符合“飞跃”模式，就像爱因斯坦对物理学做出的贡献一样。

关联性原则：一个新的科学理论，必须与先前已经确定的实证事实所关联，即兼容旧的事实。即使是爱因斯坦理论中存在许多概念重构，其在低俗运动情况下的解释也和牛顿理论所做的预测基本相同。我们需要警惕一些伪科学中违反了关联性原则，即声称先前的数据结论不相关。很多科学领域的进步靠的不是单一的突破，而是一系列难以描述的时断时续的过程。

聚合性原则：在没有一个单独的实验可以帮助一锤定音，而是每个实验都至少帮助排除一些替代解释。可以从实验局限性和理论检验的角度分别理解聚合性原则。

How to think about psychology 5-7

Posted on 2021-05-31 Edited on 2026-07-07 In Psychology , How to think about psychology

这才是心理学（5-7）How to think about psychology

第五章相关性与因果关系问题

本章主要向读者解释两个变量具有相关性并不表示这两个变量存在因果关系。

第三变量的存在会使两个变量之间产生误导性关联，这种第三变量有时候并不是很容易分辨。在“使用“烤箱法”避孕”这个案列中，可以很清楚的意识到由于经济水平的不同，导致了使用的避孕方法/工具的不同，从而影响到避孕效果，然而经济水平较高的家庭中往往会有一些高级家具如烤箱等，因此烤箱和避孕在调查中虽然显示了一定的联系，但是第三变量的存在（经济水平）才是正确的因果关系。当一些因果关系在常识看来是显而易见时，或者当我们带着强烈的预设偏见或者我们的理论取向支配了我们对现象的解释时，相关性很容易被视为因果关系的证据。

How to think about psychology-3-4

Posted on 2021-05-28 Edited on 2026-07-07 In Psychology , How to think about psychology

这才是心理学（2-3）How to think about psychology

第三章操作主义与本质主义

操作主义是指科学理论的概念必须以某种方式建立在可观察事件的基础之上，或与之相关联，而这种可观察时间是可以被测量的。

本质主义认为只有从内在本质或者本质的属性对现象做出终极的解释的理论，才是好的科学理论。

科学家为操作主义者而不是本质主义者，因为他们并不尝试去回答任何关于“本质”的问题，同时这也不是科学本来面目，科学的独特优势提供一种消除错误的方法，这些错误是我们知识库中的一部分。如果将饥饿定义为“胃里的啃咬感”，这不是操作性的定义，因为其不可测量，而将其定义为可测量的食物消化时间或者一些血糖等生理指标，就是一种操作性的定义。科学中的概念是由一组操作定义的，这也促使我们更加全面地思考问题。我们需要培养对操作性定义的细节进行深究的习惯。

zzz の Blogs

vLLM 架构源码解析（一）：从 API 请求到 Token 生成

目录

1. 引言：为什么 vLLM 能提速 10-24 倍？

如何写一个 Agent：从最小 Runtime 到 Coding Agent

从大模型到 TPU 执行：框架、算子、内核、DLC、vLLM 与 Linux 内核

中断设置和键鼠处理

VGA 设定

GDT&IDT

GDT

初识操作系统（启动区和初始化）

工具介绍

指令集基本原理

计算机体系结构背景

How to think about psychology 11-12

这才是心理学（11-12）How to think about psychology

第十一章偶然性

How to think about psychology 8-10

这才是心理学（8-10）How to think about psychology

第八章关联性和聚合性

How to think about psychology 5-7

这才是心理学（5-7）How to think about psychology

第五章相关性与因果关系问题

How to think about psychology-3-4

这才是心理学（2-3）How to think about psychology

第三章操作主义与本质主义

目录

1. 引言：为什么 vLLM 能提速 10-24 倍？

VGA 设定

GDT&IDT

GDT

工具介绍

计算机体系结构背景

这才是心理学（11-12）How to think about psychology

第十一章 偶然性

这才是心理学（8-10）How to think about psychology

第八章 关联性和聚合性

这才是心理学（5-7）How to think about psychology

第五章 相关性与因果关系问题

这才是心理学（2-3）How to think about psychology

第三章 操作主义与本质主义

第十一章偶然性

第八章关联性和聚合性

第五章相关性与因果关系问题

第三章操作主义与本质主义