· 1 min de leitura

MiniMax-M3 深度分析:长上下文与 Agent 能力解析

我已收集到充分的一手与权威三手资料。Artificial Analysis 上 M3 的独立分数尚未稳定显示(页面只列到 M2.7=50)。我现在有足够材料撰写这篇深度研究报告了。


先把话说在前面:MiniMax-M3 是真的,今天刚发布

在动笔分析之前,我先确认了一件最关键的事——这个"MiniMax-M3"不是传言、不是同名撞车,而是 MiniMax(上海稀宇科技)在 2026 年 5 月 31 日正式发布、6 月 1 日全面铺开的新一代旗舰模型。我交叉核对了三个独立来源:MiniMax 官方博客《MiniMax M3 is officially released today》(minimax.io/blog/minimax-m3)、官方按量计费页(platform.minimax.io/docs/guides/pricing-paygo)、以及第三方聚合平台 OpenRouter 的模型页(openrouter.ai/minimax/minimax-m3,标注 "Released May 31, 2026")。三方对核心事实(1M 上下文、原生多模态、定价 $0.30/$1.20)完全一致,可信度很高。

有一点要先帮你拨开迷雾:就在几天前(5 月 26–27 日),网上铺天盖地都是"M3 即将发布""预计 2026 下半年"的预测文章(比如 LinkedIn、Medium 上那些"Release Date"猜测帖,还有 EvoLink 那篇写着"截至 5 月 31 日还没正式 API"的观望文)。这些都是发布前的旧信息,现在已经过时了——M3 比那些人预测的"下半年"提前落地了。所以如果你看到说"M3 还没发"的页面,别被带偏,那是上周的快照。

下面我按你关心的顺序,从"它是什么"一路讲到"该不该选它"。

一、M3 到底是什么:MiniMax 把三张王牌第一次合到了一张开源牌上

要理解 M3 的定位,得先看 MiniMax 这条产品线的演进逻辑。这家公司的 M 系列(M2 → M2.1 → M2.5 → M2.7)一直主打一个方向:用很小的"激活参数"撑起很强的智能,专攻编程和 Agent(智能体)。从官方 M2 技术报告看,底座是 2299 亿总参数的 MoE(混合专家)架构,但每个 token 只激活 98 亿参数——打个比方,这就像一家有 256 个专科医生的大医院,但你每次看病只惊动其中几位最对口的,既保证专业度又省成本。

M3 在这条线上的位置,官方自己用一句话点破了:"M3 是第一个、也是目前唯一一个同时具备三项前沿能力的开源权重模型"。这三项是——

第一,前沿级编程与 Agent 能力(frontier coding & agentic)。第二,100 万 token 的超长上下文(1M context)。第三,原生多模态(natively multimodal,支持图像、视频输入,甚至能操作电脑桌面)。官方的原话是"这三项能力对闭源前沿模型来说已经是标配,但 M3 是开源世界里第一个把三者凑齐的"。

这句话信息量很大,值得逐条翻译成你能感知的东西。

"前沿编程与 Agent"意味着什么?不只是会写代码片段,而是能像一个真正的工程师那样长时间自主干活。官方举了个让我印象很深的例子:他们给 M3 一篇 ICLR 2025 最佳论文,让它"独立复现"。M3 自主跑了将近 12 小时,提交了 18 次 commit、画了 23 张实验图,最后真把核心实验跑通了。另一个例子更硬核——让它从零优化一个 CUDA 算子(FP8 矩阵乘法,业内公认一两周专家工时的活),M3 连续干了约 24 小时,做了 147 次基准测试提交、1959 次工具调用,把硬件峰值利用率从 7.6% 拉到 71.3%,提速 9.4 倍。这就是"Agent 能力"的真实含义:它能在一个任务上盯几个小时甚至几天,自己试错、自己纠偏,而不是答一句就停

"1M 上下文"意味着什么?用你能感知的尺度说:100 万 token 大约相当于 70–80 万英文单词,或者说能一口气把一整套代码仓库、或者好几本书塞进去让它一起读。不是"读几章",而是"读完整本还能跨章节联想"。官方还特意说,API 保证最低 512K,最高 1M。

"原生多模态"意味着什么?关键词是"原生"(native)。很多模型的多模态是后期"贴"上去的——文本模型练好了,再外挂一个视觉模块。M3 不一样,官方强调它从"第 0 步"就用文本和图像交错(interleaved)的数据一起训练,训练数据规模扩到了 100 万亿 token 量级。打个比方,这就像一个孩子从小同时学说话和看图,而不是先学会说话、长大后再补课认图——前者的图文理解会更自然、更深。它能看懂论文里的曲线和公式,能理解视频,甚至官方演示了"用手机喊一句,让它打开电脑上的 ERP 客户端、照着 Excel 批量录发票"这种"操作电脑"的能力。

把这三条合起来看 M3 的"魂":它不是一个聊天模型,而是一个为"长时间、跨模态、自主干活的智能体"量身打造的工作伙伴。配套发布的"MiniMax Code"产品也印证了这一点——它能把大任务拆成多阶段、并发、可动态调整的工作流,用"生产者+验证者"的对抗式循环自我纠错,官方说能"连续自主运行好几天"。

二、关键参数与能力边界(表格化呈现)

我把能从官方材料里抠到的硬参数整理如下,每行都标了来源。拿不到的我会明说。

参数维度

MiniMax-M3 具体情况

来源 / 日期

架构

MoE + 全新 MSA(MiniMax Sparse Attention)稀疏注意力

官方博客,2026-05-31

总参数 / 激活参数

官方 M3 博客未明确公布(M2 系列为 229.9B 总 / 9.8B 激活,M3 待技术报告)

VentureBeat 引 M2 报告,2026-05;M3 报告"10 天内发布"

最大上下文(输入)

1M token,API 保证最低 512K

官方模型页,2026-05-31

最大输出

官方未单列;OpenRouter 某 provider 标 Max Output 512K

OpenRouter,2026-06-01

输入模态

文本、图像、视频

官方博客 / OpenRouter

输出模态

文本

OpenRouter,2026-06-01

推理模式

支持"思考开关"(thinking on/off),两种模式同价、可按请求切换

官方博客,2026-05-31

函数调用 / 工具调用

支持(tools、tool_choice 参数)

OpenRouter API 文档

结构化输出

支持 response_format(强制 JSON 等格式)

OpenRouter API 文档

流式输出

支持(stream=true,SSE)

OpenRouter API 文档

采样控制

temperature(默认 1)、top_p(默认 1)、max_tokens、system prompt

OpenRouter API 文档

缓存

支持 prompt caching(命中读取有独立低价;API 全自动缓存无需配置)

官方定价页 / 模型页

实测速度

单 provider 实测吞吐约 18 tokens/s,首 token 延迟约 4.47s

OpenRouter,2026-06-01(仅单一来源,谨慎看待)

部署形态

API(pay-as-you-go + Token 订阅)+ MiniMax Code 产品;权益将开源到 HuggingFace/GitHub

官方博客("未来 10 天开源权重"),2026-05-31

服务等级

standard(默认)+ priority(service_tier,需销售开通,即将公开)

官方定价页

多语言

中英双语为强项(M 系列一贯),具体语种清单官方未列出

推断 + 官方未明示

几个要点展开说说。

关于"思考开关":这是 M3 一个很实用的设计。开启思考模式时,它会先在内部做一长串推理(类似草稿纸),适合复杂推理和长任务;关掉则反应快,适合对话和代码补全这种讲究低延迟的场景。两种模式同价——这点对成本规划友好,你不用担心"开思考会贵一截"。

关于"未公开的参数":M3 的确切总参数/激活参数官方还没公布,要等"未来 10 天内"发布的技术报告和开源权重。原因很清楚——刚发布,技术报告还在路上。在此之前,业界普遍参照它前代 M2 的"229.9B 总 / 9.8B 激活"做推测,但我建议你别当作 M3 的定论。

关于速度:官方主打的是架构层面的"提速"——靠新的 MSA 稀疏注意力,在 100 万 token 长度下,单 token 计算量只有上一代的 1/20,预填充阶段提速 9 倍以上、解码阶段提速 15 倍以上。但这是"相对自家上一代"的提速,不是绝对的 tokens/s。绝对吞吐的权威数据官方没给,OpenRouter 上单个 provider 实测约 18 tokens/s——这个数字偏低,但只是一个刚上线 provider 的早期数据,我不建议你拿它下结论,等更多平台铺开后再看。

三、MSA:它"快"和"长"的底层秘密(白话版)

M3 最大的技术卖点叫 MiniMax Sparse Attention(MSA,稀疏注意力),这是理解它为什么"又长又快"的钥匙,我用大白话讲清楚。

传统的"全注意力"有个根本毛病:每个词都要和句子里所有其他词"打一遍交道"。VentureBeat 那篇报道有个绝妙的比方——这就像你去一个社交酒会,被要求和在场每一个人都深聊一遍,同时还要盯着所有人之间的对话。人少时还行,人一多(上下文一长),计算量是按平方暴涨的(这叫"二次方复杂度"),硬件直接顶不住。

有意思的是,MiniMax 在做上一代 M2 时故意没用那些省算力的"捷径"(比如滑窗注意力、线性注意力)。他们测下来发现,这些捷径虽然快,但会让模型"丢掉大局观"——在超过 32K 上下文的复杂任务上,分数从 90 掉到 72,多步推理能力明显受损。所以 M2 咬牙扛着全注意力的高成本,保住了智商。

M3 的 MSA 就是来解这个两难的。它的思路是:不压缩、不模糊,而是在真实的、未压缩的键值(KV)上做"分块挑选"——把上下文切成一块块,先快速筛一遍哪些块跟当前问题相关,只对相关块做精细注意力。这跟 DeepSeek 的 MLA(把信息压进低维空间)路线不同,MSA 保留了原始信息,所以既快又不丢精度。官方说在大量消融实验里,MSA 在绝大多数能力上能"打平全注意力"。

这对你意味着什么? 如果你的活儿是"长文档分析""整仓库代码理解""超长 Agent 任务",M3 的吸引力在于:它把过去"超长上下文 = 极贵 + 极慢"这个枷锁砸开了。1M token 下成本降到 1/20,解码快 15 倍——这让"超长上下文 Agent"第一次在经济上变得可行。这是 M3 区别于绝大多数竞品的真正护城河。

四、性能与基准:它到底强在哪,又弱在哪

这里我要非常诚实地帮你区分三类数据:官方自测、第三方评测、社区复现。M3 刚发布一天,目前能拿到的几乎全是官方自测,第三方独立评测(如 Artificial Analysis)还没把 M3 的综合智能分数稳定上线——我去查了,AA 的 MiniMax 页面目前最高还只列到 MiniMax-M2.7(智能指数 50)。所以下面的官方数字,请你心里挂一个"待第三方验证"的标签。

官方在博客里给出的关键成绩(均为官方自测,评测方法附在博客末尾):

在编程上,SWE-Bench Pro 得分 59.0%,官方称"超过 GPT-5.5 和 Gemini 3.1 Pro,逼近 Opus 4.7"。Terminal-Bench 2.1 达 66.0%,MCP Atlas 74.2%,SWE-fficiency 34.8%,KernelBench Hard 28.8%。在 SVG 生成(SVG-Bench)上官方称超过 Opus 4.7。

在 Agent/浏览上,BrowseComp 得分 83.5,超过 Opus 4.7 的 79.3。在端到端自主智能体评测 Claw-Eval 上拿了最高分。

在多模态上,OmniDocBench(文档理解)超过 Gemini 3.1 Pro;Video-MME 在 512 帧下得 84.6。

在那些"长跑型"真实任务上,PostTrainBench(让模型自己训练别的模型)M3 得 37.1,排第三,落后于 Opus 4.7(42.4)和 GPT-5.5(39.3),但明显领先其他模型。

怎么解读这些数字? 三点。

第一,M3 的优势高度集中在"编程 + Agent + 长上下文 + 多模态融合"这个组合拳上,尤其是"长时间自主干活"。它的强项不是单点的智商爆表,而是"能不能盯着一个复杂任务连续干几小时还不跑偏"——这恰恰是当前很多模型的短板,也是 MSA 长上下文的直接受益场景。

第二,要警惕"评测条件公平性"这个陷阱。我仔细读了官方的评测方法学,发现一个值得注意的细节:很多基准 M3 用的是"Claude Code"作为脚手架(scaffolding),而对比的 GPT-5.5、Gemini 用的是各自的 Codex 等。脚手架不同,成绩可比性就要打折扣。另外像 Video-MME 这种,M3 用 512 帧、外部模型用最高思考模式但帧数受 API 限制——评测条件并不完全对齐。所以"超过 GPT-5.5"这类话,在官方选定的条件下成立,换个条件未必。这不是说官方造假,而是 LLM 评测本就高度依赖配置,厂商自测天然会挑对自己有利的设置。

第三,目前看不到 M3 的明显短板数据——但这恰恰是因为数据全来自官方。幻觉率、工具调用稳定性、代码实际可执行率这些"容易暴露问题"的维度,官方自然不会主动放大。真正的短板要等第三方评测和社区大规模复现出来才知道。我的判断是:以 M 系列一贯偏科"Agent/编程"的特点,M3 在纯知识问答、创意写作、非技术类对话上,未必能超过 GPT-5.5、Opus 4.7 这种通用全能型选手。

五、价格与性价比:这是 M3 最锋利的一刀

把官方定价页(platform.minimax.io,2026-05-31 更新)的数字摆出来,你会立刻明白 MiniMax 的打法。

标准档(standard tier),输入 ≤ 512K:

输入 $0.30/百万 token(发布 7 天内五折,原价 $0.60),输出 $1.20/百万 token(原价 $2.40),缓存命中读取 $0.06/百万(原价 $0.12)。

长上下文档(输入 > 512K): 输入 $1.20/百万,输出 $4.80/百万,缓存读取 $0.24/百万——也就是超过 512K 后,单价翻倍。这个档目前限量、需联系销售,几天内公开。

Priority(优先)档: 比标准档贵 50% 左右(≤512K 时输入 $0.45、输出 $1.80),换更稳定的低延迟,适合 SLA 敏感的工业场景。

订阅制(Token Plan): Plus $20/月约 17 亿 token,Max $50/月约 51 亿 token,Ultra $120/月约 98 亿 token,且文本/图像/语音/音乐共享一个额度池。官方称这是同价位里全球数一数二的额度。

现在把它翻译成"可感知的钱"(按标准档原价 $0.30 输入 / $1.20 输出算,不算五折):

写一篇 1500 字中文总结:中文一篇 1500 字大约 2500–3000 token 输出,输入假设 1000 token。成本约 = 0.001×$0.30 + 0.003×$1.20 ≈ $0.0039,零点几美分,约人民币 3 分钱。便宜到可以忽略。

处理一篇 10 万字长文:10 万中文字约 16–18 万 token 输入。如果保持在 512K 档内,输入成本约 0.17×$0.30 ≈ $0.05;若让它输出一份 3000 字(约 5000 token)摘要,再加 $0.006,合计约 $0.056,约人民币 4 角。注意:一旦你的输入冲破 512K(约 35–40 万字),单价立刻翻倍,这是关键的成本断点。

一次带工具调用的 Agent 分析任务:这是成本最不可控的地方。因为 Agent 会反复"思考—调用工具—读结果—再思考",每一轮都把历史塞回上下文,token 像滚雪球一样涨。前面官方那个 CUDA 例子做了 1959 次工具调用——这种任务跑下来可能消耗几百万乃至上千万 token,成本从几美元到几十美元不等。好在 M3 的缓存命中只要 $0.06/百万(OpenRouter 实测缓存命中率高达 94.8%),这对 Agent 这种"前缀高度重复"的场景是巨大的省钱利器。

同口径横向对比(均取主线/标准档官方定价,输入/输出 美元每百万 token,2026 年 5–6 月):

模型

输入

输出

上下文

开/闭源

MiniMax-M3

$0.30

$1.20

1M

开源(即将)

DeepSeek-V4-Pro

$0.435

$0.87

1M

开源

DeepSeek-V4-Flash

$0.14

$0.28

1M

开源

Gemini 3.1 Pro

$2.00

$12.00

闭源

Claude Opus 4.7

$5.00

$25.00

闭源

GPT-5.5

~$15.00

~$60.00

闭源

来源:DeepSeek 官方定价页(api-docs.deepseek.com);闭源三家取自 spectrumailab、datacamp、mindstudio 等 2026 年 4–5 月汇总(这些是三手汇总,价格可能随时调整,请以各家官网为准)。

这张表的冲击力一目了然:M3 的输出价($1.20)只有 Opus 4.7($25)的二十分之一、GPT-5.5($60)的五十分之一。即便对比同样走"低价开源"路线的 DeepSeek,M3 的输入更便宜,输出略贵于 V4-Pro 但仍在同一量级。M3 把自己直接钉在了"闭源前沿能力、开源白菜价"这个生态位上

但我要提醒你几个对比陷阱:其一,闭源模型常有缓存折扣,实际账单未必是表中倍数。其二,M3 超过 512K 后翻倍计价,DeepSeek 则全程 1M 同价——如果你恰恰是吃超长上下文的,DeepSeek 的长文成本反而更稳。其三,DeepSeek-V4-Pro 当前的 $0.435 是"75 折促销价",官方明说促销在 5 月 31 日后会调到原价的 1/4(约 $0.435 成为常态),这个要持续盯。其四,便宜的前提是吞吐和限速够用——M3 的并发限制、长上下文档的"限量供应"都可能成为生产环境的隐性瓶颈。

六、开源 vs 闭源:六个对手,三种选择

我挑了六个最有代表性的对手,分两阵营和你掰扯。

开源阵营:DeepSeek-V4(V4-Pro/V4-Flash)、Qwen3.7、GLM-5.1。 这三家是 2026 年中国开源前沿的第一梯队。DeepSeek-V4 同样 1M 上下文、支持思考模式、价格极致,是 M3 最直接的正面对手;它的优势在"纯智能/推理"口碑和更稳的长文同价,劣势是原生多模态和"操作电脑"这类能力上不如 M3。Qwen3.7 生态最全(文档、SDK、配套工具一应俱全,背靠阿里云),但 Qwen3.7-Max 是闭源 API、不开权重,开源的是其他档位。GLM-5.1 被业界评为"做长跑自主编程 Agent 最强的开源选项之一",和 M3 在 Agent 赛道高度重叠,是值得直接对打 A/B 测的对手。

闭源阵营:Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro。 这三个是当下闭源天花板。它们的共性是通用智能的上限更高、生态最成熟、文档和 Agent/RAG 配套最完善、稳定性久经考验,代价是贵(贵 5–50 倍)和闭源(不能私有化部署、要受地区与合规约束)。M3 的官方叙事正是"在编程/Agent/长上下文这几个点上逼近甚至局部超过它们,但价格是零头,而且开源"。

逐维度对比小结:

参数与能力边界上,M3 和 DeepSeek-V4 都是 1M 上下文,但 M3 的"原生多模态 + 操作电脑"是开源里独一份;工具调用、结构化输出大家都有。性能上,纯通用智能闭源三强更稳,编程/Agent/长上下文这个细分赛道 M3 极具竞争力(但记住,目前是官方数据)。价格与可用性上,M3 和 DeepSeek 是数量级的便宜;闭源胜在地区可用性广、合规声明完整。生态上,闭源三强 + Qwen 的 SDK/文档/RAG/Agent 配套最成熟,M3 作为新发布者生态还在搭建(但它配了 MiniMax Code、且承诺开源,追赶很快)。

综合判断与选型建议

把所有线索收束起来,我对 MiniMax-M3 的判断是:它不是一个"什么都想赢"的全能选手,而是一把专为"长时间、跨模态、自主干活的智能体"打磨的利刃。它最锋利的地方有两处——一是 MSA 架构让"超长上下文 + 高速度 + 不丢智商"第一次在开源世界凑齐,二是把闭源前沿级的编程/Agent 能力压到了白菜价并即将开源。它的不确定性也很明确:综合智能的第三方背书还没到位,纯通用任务(知识问答、创意写作)大概率不如闭源全能型,确切参数和真实短板要等技术报告与社区复现。

什么时候选 M3:你在做编程 Agent、长文档/整仓库分析、需要"图文视频一起理解"或"操作电脑"的自动化工作流,且对成本敏感、希望未来能私有化部署。这是 M3 的主场,闭源同类能力下它能帮你省 90% 以上的钱。

什么时候选开源对手(DeepSeek-V4 / GLM-5.1 / Qwen3.7):如果你吃的是"纯推理/纯长文同价"(DeepSeek 长文不翻倍更划算),或者你重度依赖成熟生态和中文调优(Qwen 系),或者你想在自主编程 Agent 上多挑一个开源选手做 A/B(GLM-5.1)。建议把 M3 和这几个放进同一套你自己的真实任务集里实测,别只看厂商基准。

什么时候选闭源(Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro):你的任务对"通用智能上限、稳定性、合规、生态完备度"要求极高,预算不是首要约束,或者你需要某些只有这些厂商才提供的企业级保障和地区可用性。简单说——要的是"最稳最全",而不是"最划算"。

一句话收尾:如果你的关键词是"Agent、长上下文、多模态、省钱、可开源",M3 现在就值得你建一个测试账号认真试;如果你的关键词是"通用全能、生产稳定、生态成熟",那就先观望它的第三方评测和技术报告,别急着把生产负载压上去。

文末:三个检验本研究有效性的追问,附我的回答

追问一:如果官方迟迟不公布 M3 的确切参数和综合智能分数,我该用什么替代指标判断它的真实水平? 我会优先盯三个独立信号:一是 Artificial Analysis 的 Intelligence Index 何时把 M3 收录(这是目前最权威的跨模型横评),二是 OpenRouter/LMArena 上 M3 的真实使用量和盲测胜率(用脚投票比榜单更诚实),三是 GitHub/HuggingFace 上权重开源后社区的复现帖。在这些出来之前,我对所有"官方自测超过 GPT-5.5"的说法都只给"待验证"的信用评级。

追问二:官方基准都用了不同脚手架,可比性存疑,那我怎么做小规模自测来验证 M3 是否真适合我? 我会建一个 20–50 题的"私有任务集",全部来自你自己的真实场景(你常处理的那种代码仓库、那种长文档、那种 Agent 流程),然后用完全相同的提示词、温度、工具配置,让 M3 和你现在用的模型跑同一套题,人工或用强模型当裁判打分。重点测三件事:长任务的"跑偏率"(多少次中途放弃或答非所问)、工具调用的成功率、以及同样质量下的实际 token 账单。这种"同口径小样本实测"比任何榜单都更能回答"它对我有没有用"。

追问三:价格这么便宜,会不会有我没看见的隐性成本? 会,主要在三处。其一是 512K 的成本断点——超过就翻倍,做超长上下文前务必估算你的真实输入长度。其二是 Agent 任务的 token 雪球——反复工具调用会让账单远超直觉,务必善用缓存(M3 缓存命中才 $0.06)。其三是早期稳定性与限速——长上下文档目前"限量、需联系销售",priority 通道也还没全面开放,生产环境上线前要确认你的并发和 SLA 能被满足。便宜是真便宜,但"能不能稳定地便宜"得自己压测一遍才放心。