mirror of
https://github.com/0xSojalSec/airllm.git
synced 2026-03-07 22:33:47 +00:00
readme
This commit is contained in:
11
README.md
11
README.md
@@ -206,6 +206,17 @@ print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_to
|
||||
</details>
|
||||
<br/>
|
||||
|
||||
|
||||
## 基于QLoRA的DPO RLHF实现
|
||||
|
||||
Anima模型又开源了基于QLoRA的最新的DPO技术。
|
||||
|
||||
DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的老大难问题,也被认为是OpenAI的压箱底独家秘笈。DPO技术改变了这一切,让RLHF彻底傻瓜化!
|
||||
|
||||
我们开源了RLHF的低成本QLoRA的实现,一台GPU机器就可以训练33B模型的DPO!
|
||||
|
||||
具体详见:[这里](https://github.com/lyogavin/Anima/tree/main/rlhf)。
|
||||
|
||||
# 参与贡献
|
||||
|
||||
欢迎大家参与贡献本项目 🙏
|
||||
|
||||
@@ -3,6 +3,14 @@
|
||||
|
||||
*Read this in [English](README_en.md).*
|
||||
|
||||
<div align="left">
|
||||
|
||||
<a href="https://github.com/lyogavin/Anima/stargazers"></a>
|
||||
[](https://github.com/LianjiaTech/BELLE/blob/main/LICENSE)
|
||||
[](https://static.aicompose.cn/static/wecom_barcode.png?t=1671918938)
|
||||
[](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged)
|
||||
</div>
|
||||
|
||||
Anima模型又开源了基于QLoRA的最新的DPO技术。
|
||||
|
||||
DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的老大难问题,也被认为是OpenAI的压箱底独家秘笈。DPO技术改变了这一切,让RLHF彻底傻瓜化!
|
||||
@@ -58,7 +66,7 @@ cd rlhf
|
||||
|
||||

|
||||
|
||||
完整merge的模型已经[在Huggingface发布](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged)。
|
||||
完整merge的模型已经开源:[](https://huggingface.co/lyogavin/Anima33B-DPO-Belle-1k-merged)。
|
||||
|
||||
以下是经过DPO训练的模型前后输出变化的举例:
|
||||
|
||||
|
||||
Reference in New Issue
Block a user