diff --git a/README.md b/README.md
index 137ac05..bc9df31 100644
--- a/README.md
+++ b/README.md
@@ -206,6 +206,17 @@ print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_to
+
+## 基于QLoRA的DPO RLHF实现
+
+Anima模型又开源了基于QLoRA的最新的DPO技术。
+
+DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的老大难问题,也被认为是OpenAI的压箱底独家秘笈。DPO技术改变了这一切,让RLHF彻底傻瓜化!
+
+我们开源了RLHF的低成本QLoRA的实现,一台GPU机器就可以训练33B模型的DPO!
+
+具体详见:[这里](https://github.com/lyogavin/Anima/tree/main/rlhf)。
+
# 参与贡献
欢迎大家参与贡献本项目 🙏
diff --git a/rlhf/README.md b/rlhf/README.md
index 4d2147a..9f6d301 100644
--- a/rlhf/README.md
+++ b/rlhf/README.md
@@ -3,6 +3,14 @@
*Read this in [English](README_en.md).*
+
+
+

+[](https://github.com/LianjiaTech/BELLE/blob/main/LICENSE)
+[](https://static.aicompose.cn/static/wecom_barcode.png?t=1671918938)
+[](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged)
+
+
Anima模型又开源了基于QLoRA的最新的DPO技术。
DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的老大难问题,也被认为是OpenAI的压箱底独家秘笈。DPO技术改变了这一切,让RLHF彻底傻瓜化!
@@ -58,7 +66,7 @@ cd rlhf

-完整merge的模型已经[在Huggingface发布](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged)。
+完整merge的模型已经开源:[](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged)。
以下是经过DPO训练的模型前后输出变化的举例: