update readme

This commit is contained in:
Yu Li
2023-06-13 23:00:37 +08:00
parent 38c7a6195e
commit d78ad2be44

View File

@@ -17,11 +17,11 @@
AI Community从来都是非常开放的AI发展到今天离不开很多以前的重要开源工作开放共享的Paper或者的开源数据和代码。我们相信AI的未来也一定是开放的。希望能为开源社区做一些贡献。
**为什么33B模型很重要**
**为什么33B模型很重要是个Game Changer**
之前大部分开源可finetune的模型大都是比较小的模型7B或者13B虽然可以在一些简单的chatbot评测集上通过finetune训练有不错的表现。但是由于这些模型规模还是有限LLM核心的reasoning的能力还是相对比较弱。这就是为什么很多这种小规模的模型在实际应用的场景表现像是个玩具。如这个[工作](https://yaofu.notion.site/Towards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75)中的论述chatbot评测集比较简单真正比较考验模型能力的复杂逻辑推理及数学问题上小模型和大模型差距还是很明显的。
因此我们认为QLoRA的工作很重要,通过QLoRA的优化方法第一次让33B规模的模型可以比较民主化的比较低成本的finetune训练并且普及使用。我们认为33B模型既可以发挥大规模模型的比较强的reasoning能力又可以针对私有业务领域数据进行灵活的finetune训练提升对于LLM的控制力。
因此我们认为[QLoRA](https://arxiv.org/abs/2305.14314) 的工作很重要重要到可能是个Game Changer。通过QLoRA的优化方法第一次让33B规模的模型可以比较民主化的比较低成本的finetune训练并且普及使用。我们认为33B模型既可以发挥大规模模型的比较强的reasoning能力又可以针对私有业务领域数据进行灵活的finetune训练提升对于LLM的控制力。