120 万奖金池里,有一块没人抢的肥肉:RWKV-7 × transformers 训练适配

120 万奖金池里,有一块没人抢的肥肉:RWKV-7 × transformers 训练适配
RWKV-7 “Goose” 出来一阵子了100% RNN、无 KV cache、constant-space、linear-timestate 比同档 Qwen3.5 小三倍多——BlinkDL 那边单卡 fp16 decode 已经跑到 13000 tok/s 的量级。问题是vLLM / SGLang / transformers / llama.cpp 四个方向的适配目前都还没到生产级。于是有了这笔120 万奖金池按贡献打分分配四个方向可分开认领、可重叠拿分。 重点来了四个方向里transformers 这一块几乎是空的而且和其他三个零重叠——独立计分。为什么是 transformers 方向值得冲BlinkDL 原话“transformers 的适配需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”而 HF 官方transformers目前只合了 RWKV-v5 / v6v7 是 gap。谁能先把 v7 在 transformers 上跑通训练栈PEFT / DPO / GRPO / SFT / DeepSpeed谁就拿下了这个方向的 baseline 后续优化空间。更关键的是不重叠方向社区进度与别人重叠生态价值vLLM有人在做 PR高state cache / chunked prefill 三家都要推理 servingSGLang空白较多高推理 servingtransformers本项~空这个 repo 在填无PEFT / LoRA / DPO / GRPO / SFT 全训练生态llama.cpp有人在摸低边缘训练方向做好了下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利。dfytensor/transformers-rwkv7 已经做到哪了这个 repo 就是冲着RWKV-7 × transformers 训练适配去的作者已经把地基打完了而且全栈可验证核心能力已绿✅ Pure-PyTorch forwardparallel训练/ RNNdecode双模数值对齐官方 demorel dev ~8e-7argmax 100% 一致✅ backward 通 → 训练就绪✅ 加载官方 checkpoint0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构✅AutoModelForCausalLM.from_pretrained()零代码加载auto-register✅ PEFT / LoRAget_peft_model0.69% trainablegrad 通✅ HF TrainerSFT、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat_is_hf_initializedguard⚡加速三档fla chunk kernelflash-linear-attention Triton / triton-windowsRTX 4090 上52–145×纯 PyTorchbsz1/T2048 → 47859 tok/s增强 CUDA WKV kerneldtype-templated fp16/bf16 出 statenvcc JIT失败静默 fallbackPure-PyTorch loop 保底CPU/GPU/任意 dtype正确性参照测试覆盖smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeedWindows CPU Windows CUDA 全绿11/14 项无 GPU 也能跑——光Windows 原生能跑这一点就把很多推理引擎方向卡死的平台问题绕过去了。那还能提什么 PR这才是重点地基有了但 120w 评分是按改进程度来的能加分的活还很多随便列几个作者 roadmap 里和周边能啃的把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernelfaster3a_2605/rwkv7_fast_v3a.py看能不能在 transformers 路径里复现那个 decode 13000 / prefill 17000 的水准量化推理接入——w8 / w4目标是 llama.cpp 的Q*_K_M精度档老卡也要快于 w16TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有但需要 Linux 多卡 runtime 验证 可能修边角投机解码 draft 用小 RWKV——DFlash 类后续项目先搭骨架autotune 选 kernel——纯 PyTorch / fla / CUDA 三档运行时按 shapedtypedevice 自动挑这块目前是硬编码优先级更多模型尺寸的全流程验真——0.1B / 0.4B 验过1.5B 的 PEFT/DPO 跑通能加分文档 example——examples/ 目录刚建SFT / DPO / GRPO 的端到端脚本是 contributor 友好入口⚠️ 奖金是按多个强 AI 评分 写明贡献分配的所以PR 描述里写清楚你改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、哪些测试新加的——这比闷头写代码更重要。怎么上手5 分钟能跑gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e.[peft,trl]# 转 checkpoint官方 .pth → HF 目录python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-xxxx.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验一遍官方对齐python tests/test_alignment.pyWindows Python 3.12 RTX 4090 是作者主环境triton-windows 3.7.1 绕过 CUDA 13.1 cudafe 崩Linux 当然也能跑fla 在 Linux 原生 Triton 更稳。最后说句实在的120w 摊到四个方向transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有几个人在卷 state cache 和 chunked prefill 了transformers 训练栈这边dfytensor/transformers-rwkv7目前是唯一一个把 PEFTTRLDeepSpeed5.x 全打通的 repo但离Albatross 级别的生产性能还有距离。BlinkDL 给的参考 kernel、给的 NumPy 参考实现、给的 Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。PR 地址放这了https://github.com/dfytensor/transformers-rwkv7 奖金公告在这https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQ冲不冲# 120 万奖金池里有一块没人抢的肥肉RWKV-7 × transformers 训练适配RWKV-7 “Goose” 出来一阵子了——100% RNN、无 KV cache、constant-space、linear-timestate 比同档 Qwen3.5 小三倍多。BlinkDL 那边单卡 fp16 decode 已经跑到13000 tok/s、prefill 17000 tok/sPro 60005090 略低但更大 bsz 反超。问题是vLLM / SGLang / transformers / llama.cpp 四个方向的适配目前都还没到生产级。于是有了这笔120 万奖金池按贡献打分分配四个方向可分开认领、可重叠拿分。 重点来了四个方向里transformers 这一块几乎是空的而且和其他三个零重叠——独立计分干净可分。为什么 transformers 方向值得冲BlinkDL 原话“transformers 的适配需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”而 HFtransformers官方目前只合了 RWKV-v5 / v6v7 是 gap。谁能先把 v7 在 transformers 上跑通完整训练栈PEFT / DPO / GRPO / SFT / DeepSpeed谁就拿下这个方向的 baseline 后续优化空间。更关键的是不重叠——这张表是奖金分配时的关键判断方向社区进度与别人重叠生态价值vLLM有人 PR #157514 在飞高state cache / chunked prefill 三家都要推理 servingSGLang空白较多高推理 servingtransformers本项~空dfytensor 这个 repo 在填无PEFT / LoRA / DPO / GRPO / SFT 全训练生态llama.cpp有人在摸低边缘 / 移动训练方向做好了下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利。dfytensor/transformers-rwkv7 已经做到哪了这个 repo 就是冲着RWKV-7 × transformers 训练适配去的作者把地基打完了全栈可验证核心能力测试全绿✅ Pure-PyTorch forwardparallel训练/ RNNdecode双模数值对齐官方 demorel dev ~8e-7argmax 100% 一致✅ backward 通 → 训练就绪✅ 加载官方 checkpoint0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构dim 自动推断✅AutoModelForCausalLM.from_pretrained()零代码加载auto-register✅ PEFT / LoRAget_peft_model0.69% trainablegrad 流通✅ HF TrainerSFT、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat_is_hf_initializedguard 防权重覆写⚡加速三档自动选择fla chunk kernelflash-linear-attention Triton / triton-windowsRTX 4090 上52–145×纯 PyTorchbsz1/T2048 →47859 tok/s增强 CUDA WKV kerneldtype-templated fp16/bf16 出 statenvcc JIT失败静默 fallback 到纯 PyTorchPure-PyTorch loop 保底CPU/GPU/任意 dtype正确性参照测试覆盖smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeedWindows CPU Windows CUDA 全绿11/14 项无 GPU 也能跑——光Windows 原生能跑这一点就把推理引擎方向卡死的平台问题绕过去了。那还能提什么 PR这才是重点地基有了但 120w 是按改进程度由多个强 AI 评分分配的能加分的活还很多。结合作者 roadmap BlinkDL 给的参考随手列几个有分量的方向把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernelfaster3a_2605/rwkv7_fast_v3a.py看能不能在 transformers 路径里复现 decode 13000 / prefill 17000 的水准量化推理接入——w8 / w4目标 llama.cpp 的Q*_K_M精度档老卡也要快于 w16Pascal 起都要能跑TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有但需要 Linux 多卡 runtime 验证 边角修补投机解码 draft 用小 RWKV——DFlash 类后续项目先搭骨架autotune 选 kernel——纯 PyTorch / fla / CUDA 三档按 shapedtypedevice 自动挑目前是硬编码优先级更多尺寸全流程验真——0.1B / 0.4B 验过1.5B 的 PEFT/DPO 跑通能加分文档 example——examples/目录刚建SFT / DPO / GRPO 端到端脚本是 contributor 友好入口⚠️ 奖金分配规则参加者写明自己贡献多个强 AI 评分公平分配。所以 PR 描述里写清楚——改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、新增/修了哪些测试——这比闷头写代码更重要。5 分钟上手gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e.[peft,trl]# 官方 .pth → HF 目录一行命令python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-20260129-ctx8192.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验官方数值对齐rel dev ~1e-6 量级python tests/test_alignment.pyWindows Python 3.12 RTX 4090 是作者主环境triton-windows 3.7.1 绕过 CUDA 13.1 cudafe 崩Linux 原生 Triton 更稳CPU 也能全绿跑测试。最后说句实在的120w 摊到四个方向transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有人卷 state cache 和 chunked prefill 了transformers 训练栈这边dfytensor/transformers-rwkv7目前是唯一把 PEFTTRLDeepSpeed5.x 全打通的 repo但离Albatross 级别的生产性能还有距离。BlinkDL 给的参考 kernel、NumPy 参考实现、Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。项目地址https://github.com/dfytensor/transformers-rwkv7奖金公告https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQQQ 群社区579490404冲不冲你定但这个方向独立计分 零重叠光这条在 120w 池子里就已经值回票价了。