浪潮信息“源”Yuan-EB刷新大模型RAG检索精度纪录

浪潮信息“源”Yuan-EB刷新大模型RAG检索精度纪录

(全球TMT2024年12月6日讯)浪潮信息近日发布了嵌入模型“源”Yuan-EB(Yuan-embedding-1.0),在C-MTEB榜单的检索任务中获第一名,以78.41的平均精度刷新了大模型RAG检索的最高成绩。该模型专为增强中文文本检索能力而设计,基于“源2.0”大模型,采用“源2.0-M32”大模型进行数据重写与合成,并通过索引技术、样本排序等方法完成高质量微调数据集构建,有效提升RAG系统的检索精度。

“源”Yuan-EB 在Hugging Face的C-MTEB榜单中排名第一
“源”Yuan-EB 在Hugging Face的C-MTEB榜单中排名第一

“源”Yuan-EB通过数据准备与模型微调两方面的技术创新,实现了模型精度的大幅提升。在数据方面,基于“源2.0”微调阶段的问答数据进行清洗与筛选,并使用“源2.0-M32”对C-MTEB训练数据进行重写与合成,形成高质量微调数据集;在微调方面,通过两个阶段的领先微调方法提升模型能力。该模型能够为用户提供大模型企业知识库应用开发的最优模型选择,在RAG流程的多个方面起到显著的精度提升,包括信息检索的准确性、处理大规模数据的效率、消除语义歧义、降低计算成本、增强对长文档的处理能力以及模型鲁棒性等,最大化提升RAG流程的整体性能和应用效果。目前,“源”Yuan-EB已在开源社区和企业大模型开发平台元脑企智EPAI中全面开放下载。