从大模型到 TPU 执行:框架、算子、内核、DLC、vLLM 与 Linux 内核
最近在梳理“agent + TPU 算子生成”的学习路径时,我发现真正需要先建立的不是某个 SDK API 的记忆,而是一张稳定的系统分层图:大模型、深度学习框架、Tensor、算子、算子内核、DLC/编译器、vLLM、TPU Runtime、Linux 内核和 TPU 硬件分别处在哪一层,各自解决什么问题。
这篇文章试图用更工程化的方式回答这个问题。最核心的关系是:大模型定义计算目标,框架表达计算图,算子定义数学语义,算子内核定义硬件实现,编译器/DLC 生成目标硬件可执行产物,vLLM 管理在线推理调度与 KV cache,Runtime 通过 Linux TPU 驱动把任务提交给 TPU 执行。