1月16日,MiniMax 全量发布大语言模型 abab6,为国内首个 MoE 大语言模型。在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。到目前为止,abab6 也是国内第一个千亿参数量以上的基于 MoE 架构的大语言模型。
MiniMax成立于2021年12月,是国内同时拥有文本、语音、视觉三模态融合的通用大模型引擎能力,并打通产品全链路的创业公司。MiniMax坚持“与用户共建智能(Intelligence with Everyone)”的理念,希望用来自用户的反馈反哺给技术,从而拓展创造力的边界,致力于为社会提供促进生产力提升的有效工具。
明势资本早在2021年就捕捉到新一代AI算法,尤其是语言大模型领域取得的长足进步,并坚信AI领域的发展将带来颠覆性的创新。2022年上半年,明势资本投资了「MiniMax」的早期融资,并在后续融资持续跟投。
为什么使用 MoE 架构?
2023 年 4 月,MiniMax 发布了开放平台。过去半年多,陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量达到了数百亿。这半年多来,客户提供了很多有价值的反馈和建议。例如,大家认为我们做得比较好的地方有:在写作、聊天、问答等场景中,abab5.5 的表现不错,达到了 GPT-3.5 的水平。
但是和最先进的模型 GPT-4 相比,我们仍有显著的差距。主要体现在处理更复杂的、对模型输出有精细要求的场景时,存在一定概率违反用户要求的输出格式,或是在推理过程中发生错误。当然,这不仅是 abab5.5 的问题,也是目前除 GPT-4 以外,几乎所有大语言模型存在的缺陷。
为了解决这个问题,进一步提升模型在复杂任务下的效果,从 6 月份我们开始研发 MoE 模型——abab6 是我们的第二版 MoE 大模型(第一版 MoE 大模型已应用我们 C 端产品中)。Abab6的参数比上一个版本大一个量级,更大的模型意味着 abab6 可以更好的从训练语料中学到更精细的规律,完成更复杂的任务。
但仅扩大参数量会带来新的问题:降低模型的推理速度以及更慢的训练时间。在很多应用场景中,训练推理速度和模型效果同样重要。为了保证 abab6 的运算速度,我们使用了 MoE (Mixture of Experts 混合专家模型)结构。在该结构下,模型参数被划分为多组“专家”,每次推理时只有一部分专家参与计算。基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。
目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。为了训练 abab6,我们自研了高效的 MoE 训练和推理框架,也发明了一些 MoE 模型的训练技巧。到目前为止,abab6 是国内第一个千亿参数量以上的基于 MoE 架构的大语言模型。
测评结果:abab6 在复杂场景下表现更好
我们对abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1和 Mistral-Medium 商用进行了自动评测。在简单的任务上,abab5.5 已经做得比较好,因此我们选择了三种涵盖了较复杂的问题的评测方法:
IFEval:这个评测主要测试模型遵守用户指令的能力。我们会问模型一些带有约束条件的问题,例如“以XX为标题,列出三个具体的方法,每个方法的描述不超过两句话”,然后统计有多少回答严格满足了约束条件。
MT-Bench:这个评测衡量模型的英文综合能力。我们会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。我们会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。
AlignBench:该评测反映了模型的中文综合能力测试,测试形式与 MT-Bench 类似。
欢迎试用!
我们深知,测评数据只是衡量大模型的一个方面。对模型迭代来说,用户实际的体验和反馈才更有价值。刚上线的 abab6 在处理复杂问题上距离最新版本的 GPT4 仍有一定差距。这篇文章,一是想跟大家同步 MiniMax 最新模型 abab6 的进展;二是邀请大家接入我们的大模型。Abab6 大模型在持续训练中,欢迎大家多提出宝贵建议。
想要接入 abab6 大模型的朋友,欢迎访问 MiniMax 开放平台官网 api.minimax.chat 登记。
我们知道距离真正实现 AGI,还有很长的路要走、很多的事要做。我们会一步一个脚印,不断根据大家的反馈,提升模型的能力和稳定性。



苏公网安备32020502001661