[FIXME][EP06] vLLM 源码讲解直播笔记

EP06: vLLM v1 仙人指路

特别鸣谢：组织者@月球大叔, 主讲人@Du Kuntai, 飞行嘉宾@YM

vLLM v0 运行起来有点慢 (CPU overhead)
vLLM v0 的代码可读性和可二次开发的能力较差
- 比如v0的Scheduler代码有2k行，改进后的v1代码只有800行
- 代码改动牵一发而动全身
如何推进代码重构?
- YM: 在稳定之后完成切换
- 开发完成后切换的问题：不切实际，新功能 & 新模型的不断涌现
- vLLM 最重要的特性: 对新模型的支持!!!
  - 易用
  - 性能
  - day0 support(在新模型刚发布就适配) –> tech debt(技术债，
    由于着急为新功能提供支持而导致工程上的不优雅，可能会影响后续新功能的支持)
vLLM重构代码的几个阶段
- Stage 1: v1 的开发
- Stage 2: v0 & v1 共存
- Stage 3: 默认开启 v1 (现在)
- Stage 4: v1 比 v0 具有更多可支持的功能
- Stage 5: 移除 v0 的代码
为什么Pytorch赢了Tensorflow? 这也是vLLM需要重构的原因
- Tensorflow曾经说过：我们有更多的功能，更好的性能和更多的硬件支持
- 原因：研究员更喜欢pytorch，然后他们毕业了…
- vLLM v0 对研究员们不够友好

代码：vllm/v1/core/sched/scheduler.py

要获取最新的vLLM更新的干货，可以查看github仓库里meetup的slices

Persistent batching
- 对于从CPU到GPU之间的数据传输，我们只需要传上一个batch的tensor增量即可
- 这个技术不新
- 相关代码位于: vllm/v1/worker/gpu_input_batch.py, vllm/v1/worker/gpu_worker.py
Piecewise cudagraph
- Cudagraph
  - 记录了一系列CUDA kernel operation然后在之后重放
  - CPU 启动 CUDA kernel 是很慢的, 但是运行一个CUDA kernel是非常快的
  - CUDAGraph: 对于一系列的CUDA kernel, CPU只需要启动一次
    - 不会记录CPU operation, 丧失了灵活性
- CUDAGraph的缺点：丧失了灵活性
- Observation: 灵活性需求通常发生在attention layer而不在MLP layer
- 解决方法：piece-wise cudagraph, 只在MLP层记录cuda graph，attention的部分使用pytorch eager mode