@@ -66,6 +66,23 @@ DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的
## 微信公众号
扫码:

## 微信群
扫码进群:

## 参与贡献
The note is not visible to the blocked user.