From 0068e9e70fccebc35e9f711e2b6c52991ca467ff Mon Sep 17 00:00:00 2001 From: Yu Li Date: Sat, 1 Jul 2023 22:43:23 -0500 Subject: [PATCH] readme --- README.md | 11 +++++++++++ rlhf/README.md | 10 +++++++++- 2 files changed, 20 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 137ac05..bc9df31 100644 --- a/README.md +++ b/README.md @@ -206,6 +206,17 @@ print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_to
+ +## 基于QLoRA的DPO RLHF实现 + +Anima模型又开源了基于QLoRA的最新的DPO技术。 + +DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的老大难问题,也被认为是OpenAI的压箱底独家秘笈。DPO技术改变了这一切,让RLHF彻底傻瓜化! + +我们开源了RLHF的低成本QLoRA的实现,一台GPU机器就可以训练33B模型的DPO! + +具体详见:[这里](https://github.com/lyogavin/Anima/tree/main/rlhf)。 + # 参与贡献 欢迎大家参与贡献本项目 🙏 diff --git a/rlhf/README.md b/rlhf/README.md index 4d2147a..9f6d301 100644 --- a/rlhf/README.md +++ b/rlhf/README.md @@ -3,6 +3,14 @@ *Read this in [English](README_en.md).* +
+ +![GitHub Repo stars](https://img.shields.io/github/stars/lyogavin/Anima?style=social) +[![Code License](https://img.shields.io/badge/Code%20License-Apache_2.0-green.svg)](https://github.com/LianjiaTech/BELLE/blob/main/LICENSE) +[![Generic badge](https://img.shields.io/badge/wechat-Anima-brightgreen?logo=wechat)](https://static.aicompose.cn/static/wecom_barcode.png?t=1671918938) +[![Generic badge](https://img.shields.io/badge/🤗-Huggingface%20Repo-green.svg)](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged) +
+ Anima模型又开源了基于QLoRA的最新的DPO技术。 DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的老大难问题,也被认为是OpenAI的压箱底独家秘笈。DPO技术改变了这一切,让RLHF彻底傻瓜化! @@ -58,7 +66,7 @@ cd rlhf ![training wandb chart](https://github.com/lyogavin/Anima/blob/main/rlhf/wandb_eval_loss_chart.png?raw=true) -完整merge的模型已经[在Huggingface发布](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged)。 +完整merge的模型已经开源:[![Generic badge](https://img.shields.io/badge/🤗-Huggingface%20Repo-green.svg)](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged)。 以下是经过DPO训练的模型前后输出变化的举例: