From d78ad2be447703d2b1305eb8966fdefa47650ea5 Mon Sep 17 00:00:00 2001 From: Yu Li Date: Tue, 13 Jun 2023 23:00:37 +0800 Subject: [PATCH] update readme --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 3bb8eeb..20fd444 100644 --- a/README.md +++ b/README.md @@ -17,11 +17,11 @@ AI Community从来都是非常开放的,AI发展到今天,离不开很多以前的重要开源工作,开放共享的Paper,或者的开源数据和代码。我们相信AI的未来也一定是开放的。希望能为开源社区做一些贡献。 -**为什么33B模型很重要?** +**为什么33B模型很重要?是个Game Changer?** 之前大部分开源可finetune的模型大都是比较小的模型7B或者13B,虽然可以在一些简单的chatbot评测集上,通过finetune训练有不错的表现。但是由于这些模型规模还是有限,LLM核心的reasoning的能力还是相对比较弱。这就是为什么很多这种小规模的模型在实际应用的场景表现像是个玩具。如这个[工作](https://yaofu.notion.site/Towards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75)中的论述:chatbot评测集比较简单,真正比较考验模型能力的复杂逻辑推理及数学问题上小模型和大模型差距还是很明显的。 -因此我们认为QLoRA的工作很重要,通过QLoRA的优化方法,第一次让33B规模的模型可以比较民主化的,比较低成本的finetune训练,并且普及使用。我们认为33B模型既可以发挥大规模模型的比较强的reasoning能力,又可以针对私有业务领域数据进行灵活的finetune训练提升对于LLM的控制力。 +因此我们认为[QLoRA](https://arxiv.org/abs/2305.14314) 的工作很重要,重要到可能是个Game Changer。通过QLoRA的优化方法,第一次让33B规模的模型可以比较民主化的,比较低成本的finetune训练,并且普及使用。我们认为33B模型既可以发挥大规模模型的比较强的reasoning能力,又可以针对私有业务领域数据进行灵活的finetune训练提升对于LLM的控制力。