MiniMax大模型每日与世界的30亿次交互

成立两年半的MiniMax，第一次面对大家，讲了讲它的初心和愿景。MiniMax大模型已有日均 30 亿次 AI 交互量，每日处理3万亿token。基于MOE（混合专家架构）+ Linear Attention（线性注意力）的新一代模型技术的应用与多项最新研发成果，也在伙伴日中与大家见面。

MiniMax用技术突破回答“每日与世界的30亿次交互”，以Intelligence with Everyone为愿景，也相信这是实现AGI最高效、且唯一的途径。本次伙伴日上，MiniMax发布了视频模型abab-video-1、音乐模型abab-music-1，更新语音模型abab-speech-1。此外，MiniMax将在未来数周内发布使用 MoE + Linear Attention 技术的多模态模型abab 7。

MiniMax创始人闫俊杰带来了一场主题分享，更多精彩亮点，文中为您呈现。

最新技术发布

· 视频模型abab-video-1：

abab-video-1具有压缩率高、文本响应好、风格多样，支持原生高分辨率、高帧率视频等特点，媲美电影质感。用户可登录海螺AI网页版，尝鲜体验生成自己的独家创意视频。

· 音乐模型abab-music-1：

abab-music-1支持多功能端到端音乐生成，可用于合成多种音乐形式，包括纯音乐、清唱作品，且满足伴奏、人声同时生成，大大简化音乐录制与创作过程。

· 语音模型abab-speech-1：

更新后的abab-speech-1支持包括粤语、韩语、⻄班牙语、日语等多语种，生成语句超拟人，情绪变化细腻自然。

· 新一代 MOE+ Linear Attention 模型技术发布：

支持高效训练海量数据，实用性和响应速度极大提升，大幅减少了大模型的训练和推理成本。相比于通用Transformer架构，在128K的序列长度下，新架构成本减少90%以上，且序列长度越长，优势越明显。

使用 MoE+Linear Attention 技术的多模态模型abab 7将在数周内上线。在与GPT-4o同一代模型能力对比上，新一代abab模型处理10万token时效率翻倍提升，并且随着长度越长，提升越明显。

MiniMax是国内日处理量、交互时长最高的大模型公司

· MiniMax大模型每日与全球用户进行30亿次交互，包含

· 日均处理超3万亿文本token，相当于一天内体验完3000段人生；

· 日均生成2000万张图片，相当于400座故宫的画作收藏；

· 日均合成7万小时语音：相当于一天读完7000本书。

Intelligence with Everyone

很多时候，不是我们的技术在帮助用户，更多的是用户在帮助我们。我们的用户多元、充满创意，有活力。正是有了他们的参与和反馈，才会有更好的智能。技术的创新与突破，源于人们对技术的信仰和坚守。MiniMax将持续通过技术突破推动AI加速发展，拓展人类智慧的边界。目前，MiniMax视频模型与音乐模型均已在开放平台和海螺AI网页版上线。未来希望与更多生态伙伴携手，探索音乐模型和视频模型的落地场景，让科技赋能创作和想象力。我们与各位携手努力，真正实现Intelligence with Everyone。

附 IO演讲全文：

大家好，我是MiniMax的创始人IO，欢迎来到我们的第一次伙伴日活动。

首先给大家介绍一下MiniMax创立之前的故事。在创业之前，我做了超过十年人工智能的研发。当时的人工智能是什么呢？最有代表性的应用就是人脸识别和AlphaGo。过去，大部分场景都是需要定制模型，但是又没法做到每个场景都定制，因此人工智能对很多人而言，只是个高大上的概念。这让作为从业者的我越来越困惑：我们花这么大力气研究人工智能，到底为了什么？

2021年的春节，我回了趟老家去看望外公。他们那代人经历的一生，是我小时候最喜欢听的故事。80岁的外公想写一本回忆录，但他不会打字，也没有足够的精力去查询资料。理论上AI很合适来完成这件事情，但是很遗憾，那个时候的AI做不到。

这件事让我意识到，AI发展的终极目标，是变得更加通用，能帮助到每个人。三个词总结，也就是Intelligence with Everyone。当我想通了这一点，一切都开始变得清晰。这让我找回了对AI研究的初心和热爱，以及一种强烈的使命感。但问题接踵而来：该如何开始？

为了追求这个目标，在2021年底，我们成立了MiniMax。在一个不到100平米的房间里写下来初心和路径，其中的三个判断，直至今日我们都依然坚定选择。

第一，我们认为下一代人工智能是无限接近通过图灵测试的智能体，交互自然，触手可及，无处不在；

第二，这实在太难了，现在看起来难，当时更难。想要实现这样的目标，更像造芯片一样，是一个巨大的系统工程，不能只做5%、10%这种提升，需要能带来数量级提升的技术突破。

第三，因为这件事很难，所以我们要坚定地分步走、拆解问题。我们判断应该先从容错率高的闲聊、写作切入。当技术一步一步提升，就可以做更强大的、以解决问题为导向的应用。最终给每个人带去智能的延展。

Intelligence with Everyone，和用户共创智能，不仅是目标，也是最高效，甚至是唯一的路径。很多时候不是我们的技术在帮助用户，更多的是用户在帮助我们。有了多元化用户的参与和反馈，才有更好的智能。

从2021年12月9日成立到今天，刚好996天。目前，每天MiniMax的大模型和终端用户（包括自有的产品+开放平台伙伴）进行30亿次交互。30亿次是什么概念？包含了每天处理超3万亿文本token，每天生成2000万张图和每天生成7万小时语音。

3万亿文本token又是什么概念呢？相当于一天内体验完3000段人生。

这30亿次连接背后，是来自于全球各地的用户，是陪伴我们一起成长的用户。他们来自全国各地，无论男女老幼，都有着共同特点——多元、充满创意和活力。我们努力用好的技术与他们共创惊喜时刻，这也是我们更加专注在改进技术的底层源动力。而这些用户真实的故事，汇聚成了MiniMax模型每日超3亿分钟的交互时长。

交互时长也是处理量的最佳近似指标，因为在很多第三方的数据网站上，像QuestMobile、Sensor Tower都可以查到相关的数据。一年前的今天，当时我们每天的交互时长大概只是ChatGPT的3%，直到今天这个时长超过50%。这也是目前所有中国公司里面最大的交互时长。

多个数据表明，我们可能是国内大模型日处理量最大的公司。但即使取得了一定的进展，我们所连接的用户还没有达到全球人口的1%，距离我们Intelligence with Everyone的目标还有很长的路要走。

如何从今天的1%增长到100%，最重要的是提高AI产品在用户中的渗透率和使用深度。基于过去两年多的多次的复盘和总结，我们认为提升这两点只能通过一件事情来完成：“科学技术是第一生产力”。放在大模型这样一个小的领域来看——每当我们的模型有重大提升，处理速度有显著提升的时候，就可以看到用户使用的场景和用户使用的深度显著地变高。反过来，这里还有一个曾经发生的真实案例：一个bug导致对话重复错误率变高，当天对话量掉了40%。这也解释了我们坚持技术创新的最底层原因。

今天的AI应用，要取得渗透率，和使用深度上质的提高，还有很多技术难关需要攻克。我们认为最重要的三个优化方向是：

1. 如何让模型的错误率持续降低：目前的模型还是有相对较高的错误率，有时惊艳，有时不靠谱。这也是制约模型处理复杂任务的原因，因为复杂的任务往往需要多个步骤，而较高的错误率导致失败率的指数增加。降低模型的错误率，是一个能够让模型处理复杂任务的一个最根本的前提，这个也是能够来增加用户使用深度的核心手段。

2. 无限长的输入和输出：为什么这件事情重要？很简单的原因，就是人具备这个能力，可以处理无限长度的输入跟输出。传统大模型计算需求随着输入输出处理量平方上升，很快就会达到算力无法负担的上限，需要底层创新解决。

3. 多模态：从生活中不难发现，文字交互只是很小的一部分，更多的是语音和视频交互。多模态的内容，比如声音，图文和视频，已经成为信息传递的主流。为了能够提高渗透率，多模态就是必经之路。

那么，如何攻克这些技术难关？在大模型领域，我们认为在同样的能力范围内，“快就是好”。我们都知道大语言模型里面有Scaling law，意思是说在算法一样的情况下，拥有更多的训练数据量和参数量就意味着更好的效果。因此，在两个性能类似的模型中，训练和推理更快的那个，可以更有效地利用算力资源迭代更多的数据，从而能够有一个更好的模型能力。

所以我们认为，快就是好，这是一个朴素但很容易被人忽视的哲学。“快”是MiniMax底层大模型的核心技术研发目标。围绕这点，我们做了很多技术革新，这边分享两个具体的例子。

第一，MOE。在MOE架构还没有被行业认可时，我们就做出了一个决定，在国内率先完成核心MoE算法技术路线的突破。我们对比了Dense模型和非原生的MOE、原生的MOE。在上一代的模型6.5s里，我们用MOE的模型比Dense的模型快3-5倍。这个也是为什么abab 6.5s模型，能够每天处理几十亿次非常核心原因。我们的abab 6.5s足够快，所以得到了广泛的部署。

在解决MOE问题的时候，我们遇到过很多技术挑战，但是我们花了很多精力最终解决问题之后，让我们坚定了自研的信心和直面复杂技术挑战的勇气，这种勇气使得我们在过去几个月又解决了一个更难的技术挑战。

第二，Linear Attention。这不仅能带来一个级别的提升，也是解决无限长度输入和无限长度输出的关键一步。简单来说，Linear Attention就是通过把Transformer 中的计算左乘找到一个右乘的近似，把传统模型架构中输入长度和计算复杂度之间平方增长的关系，变成线性的关系。

尽管在2019年就有人曾提出这种想法，但从来没有人在大规模的模型上做work。我们团队找到了一种新的归一化方式来代替Softmax，以及一种位置编码来提供计算的非线性。除此之外，我们找到了一种高效的方式，使大规模训练Linear Attention成为可能。

今年4月，我们开始作为第一个钻研Linear Attention的中国AI公司，成功研发出了新一代的基于MOE+ Linear Attention 的模型，真正可以比肩GPT-4o的水平。以国际上领先的三个模型为例，GPT-4o、Claude3.5 sonnet、abab 7，可以看到在输入的长度变长的时候，速度的提升相比非Linear Attention的模型有非常显著的变化。在处理10万token时，新模型的处理效率可达2-3倍，并且随着长度越长，模型效率提升越明显。理论上，模型可以处理的token接近无限长。

在做Linear Attention的过程中，我们非常惊喜地发现，其实GPT-4o也是这么做的。这件事还是给了我们很大的信心，我们发现在探索前沿技术的道路上，跟国际上最好的公司殊途同归的。MiniMax团队具备了越来越强的技术创新能力，我们需要继续坚持，不断找到加速技术进步的创新，才真的有机会去成为全球顶级的技术公司。

我们意识到，即使我们做了MOE，做了Linear Attention，有了好几倍的提升以后，还仍有很多其他的技术创新需要我们去做。有多个能带来几倍提升的技术后，再去做乘法，才有可能让AGI成为现实。abab 7模型的核心技术正是基于MoE+Linear Attention。除此之外，我们在abab 7上还构建了多模态理解能力。此外，我们把类似的创新技术应用在文本等多个模型上，包括声音和视频。

今天，我们MiniMax的语音模型增加了在国际上领先，且非常实用的功能：

1. 多个语种：支持包括日语、韩语、西班牙语、法语、粤语等10多个语种。MiniMax也成为全球第一个拥有地道粤语语音模型能力的公司；

2. 情绪表达：生成的语句超拟人，拥有细腻的情绪变化；

3. 音乐：MiniMax的第一款音乐模型面世了。这个模型有极高的艺术性和可塑性，相信会给我们的创造者和伙伴们带去非常多的新玩法和惊喜。

我们的语音模型是从星野、海螺和Talkie等产品中打磨出来的。我们坚持在自己的产品和API中使用相同的模型。

MiniMax推出了我们的第一个视频模型，也有可能是目前最好的视频生成模型。相比市面上的视频模型，我们的模型独特性有：

1. 文本响应好：得益于MiniMax在文本上不断积累，指令遵循好；

2. 压缩率高：得益于我们在网络架构上的经验积累，对高动态、变化多的信息有较好的表现力，其中Linear Attention所带来的高推理效率功不可没。

3. 风格多样：我们在全球拥有多元化的用户分布。无论是3D电影大片场景，还是2D动画均可驾驭；无论是中式风格还是科幻、美漫，都难不倒它。

当我们把更新后更强大的MiniMax模型能力综合起来，会发生什么呢？我们尝试用多种模型生成一段短片《魔法硬币》，并且没有任何人工修改。后续，我们会将视频背后应用的prompt公布，为大家提供一个“如何只用模型来生成高质量的视频内容”的参考。未来，我们会把所有新推出的模型和能力，都同步在MiniMax开放平台和星野、海螺AI中体验。

我这边有一枚魔法硬币。我们很希望，我们的AI能够像这枚魔法硬币一样，能够帮助很多人创造无穷的想象力，能够把它带给每个人。

在模型与产品的更新方面，声音模型、音乐模型、视频模型目前已经完全公布。此外，新一版的能够从速度和效果上都能够对标GPT-4o的模型abab 7，会在未来几周内发布。

所有的模型，包括最好的音乐模型、声音模型，最好的视频模型，以及我们认为有可能会变成最好的文本模型，都可以在开放平台里体验。我们的开放平台目前为止已经有了超过3万名客户和开发者，并且仍在持续快速增长。同时，这些模型也可以第一时间在海螺AI中体验，海螺AI也是我们在个人助手领域一个主力的产品。当把复杂的模型一起来用时，到底能组合出来什么样复杂的、更高级的玩法，我们会放在内容社区产品星野APP里面。

作为理想主义且脚踏实地的MiniMax人，我们仍然在努力前行；两年半后的今天，很幸运我们的同行者中多了那么多在座的各位，以及我们全球各地日益增长的用户们。感谢各位的持续关注与支持。希望与各位携手努力，和MiniMax一起，把人类的智能边界再向外推动一点，真正实现Intelligence with Everyone。