MiniMax-M3 深度分析：长上下文与 Agent 能力解析

我已收集到充分的一手与权威三手资料。Artificial Analysis 上 M3 的独立分数尚未稳定显示（页面只列到 M2.7=50）。我现在有足够材料撰写这篇深度研究报告了。

先把话说在前面：MiniMax-M3 是真的，今天刚发布

在动笔分析之前，我先确认了一件最关键的事——这个"MiniMax-M3"不是传言、不是同名撞车，而是 MiniMax（上海稀宇科技）在 2026 年 5 月 31 日正式发布、6 月 1 日全面铺开的新一代旗舰模型。我交叉核对了三个独立来源：MiniMax 官方博客《MiniMax M3 is officially released today》（minimax.io/blog/minimax-m3）、官方按量计费页（platform.minimax.io/docs/guides/pricing-paygo）、以及第三方聚合平台 OpenRouter 的模型页（openrouter.ai/minimax/minimax-m3，标注 "Released May 31, 2026"）。三方对核心事实（1M 上下文、原生多模态、定价 $0.30/$1.20）完全一致，可信度很高。

有一点要先帮你拨开迷雾：就在几天前（5 月 26–27 日），网上铺天盖地都是"M3 即将发布""预计 2026 下半年"的预测文章（比如 LinkedIn、Medium 上那些"Release Date"猜测帖，还有 EvoLink 那篇写着"截至 5 月 31 日还没正式 API"的观望文）。这些都是发布前的旧信息，现在已经过时了——M3 比那些人预测的"下半年"提前落地了。所以如果你看到说"M3 还没发"的页面，别被带偏，那是上周的快照。

下面我按你关心的顺序，从"它是什么"一路讲到"该不该选它"。

一、M3 到底是什么：MiniMax 把三张王牌第一次合到了一张开源牌上

要理解 M3 的定位，得先看 MiniMax 这条产品线的演进逻辑。这家公司的 M 系列（M2 → M2.1 → M2.5 → M2.7）一直主打一个方向：用很小的"激活参数"撑起很强的智能，专攻编程和 Agent（智能体）。从官方 M2 技术报告看，底座是 2299 亿总参数的 MoE（混合专家）架构，但每个 token 只激活 98 亿参数——打个比方，这就像一家有 256 个专科医生的大医院，但你每次看病只惊动其中几位最对口的，既保证专业度又省成本。

M3 在这条线上的位置，官方自己用一句话点破了："M3 是第一个、也是目前唯一一个同时具备三项前沿能力的开源权重模型"。这三项是——

第一，前沿级编程与 Agent 能力（frontier coding & agentic）。第二，100 万 token 的超长上下文（1M context）。第三，原生多模态（natively multimodal，支持图像、视频输入，甚至能操作电脑桌面）。官方的原话是"这三项能力对闭源前沿模型来说已经是标配，但 M3 是开源世界里第一个把三者凑齐的"。

这句话信息量很大，值得逐条翻译成你能感知的东西。

"前沿编程与 Agent"意味着什么？不只是会写代码片段，而是能像一个真正的工程师那样长时间自主干活。官方举了个让我印象很深的例子：他们给 M3 一篇 ICLR 2025 最佳论文，让它"独立复现"。M3 自主跑了将近 12 小时，提交了 18 次 commit、画了 23 张实验图，最后真把核心实验跑通了。另一个例子更硬核——让它从零优化一个 CUDA 算子（FP8 矩阵乘法，业内公认一两周专家工时的活），M3 连续干了约 24 小时，做了 147 次基准测试提交、1959 次工具调用，把硬件峰值利用率从 7.6% 拉到 71.3%，提速 9.4 倍。这就是"Agent 能力"的真实含义：它能在一个任务上盯几个小时甚至几天，自己试错、自己纠偏，而不是答一句就停。

"1M 上下文"意味着什么？用你能感知的尺度说：100 万 token 大约相当于 70–80 万英文单词，或者说能一口气把一整套代码仓库、或者好几本书塞进去让它一起读。不是"读几章"，而是"读完整本还能跨章节联想"。官方还特意说，API 保证最低 512K，最高 1M。

"原生多模态"意味着什么？关键词是"原生"（native）。很多模型的多模态是后期"贴"上去的——文本模型练好了，再外挂一个视觉模块。M3 不一样，官方强调它从"第 0 步"就用文本和图像交错（interleaved）的数据一起训练，训练数据规模扩到了 100 万亿 token 量级。打个比方，这就像一个孩子从小同时学说话和看图，而不是先学会说话、长大后再补课认图——前者的图文理解会更自然、更深。它能看懂论文里的曲线和公式，能理解视频，甚至官方演示了"用手机喊一句，让它打开电脑上的 ERP 客户端、照着 Excel 批量录发票"这种"操作电脑"的能力。

把这三条合起来看 M3 的"魂"：它不是一个聊天模型，而是一个为"长时间、跨模态、自主干活的智能体"量身打造的工作伙伴。配套发布的"MiniMax Code"产品也印证了这一点——它能把大任务拆成多阶段、并发、可动态调整的工作流，用"生产者+验证者"的对抗式循环自我纠错，官方说能"连续自主运行好几天"。

二、关键参数与能力边界（表格化呈现）

我把能从官方材料里抠到的硬参数整理如下，每行都标了来源。拿不到的我会明说。

参数维度	MiniMax-M3 具体情况	来源 / 日期
架构	MoE + 全新 MSA（MiniMax Sparse Attention）稀疏注意力	官方博客，2026-05-31
总参数 / 激活参数	官方 M3 博客未明确公布（M2 系列为 229.9B 总 / 9.8B 激活，M3 待技术报告）	VentureBeat 引 M2 报告，2026-05；M3 报告"10 天内发布"
最大上下文（输入）	1M token，API 保证最低 512K	官方模型页，2026-05-31
最大输出	官方未单列；OpenRouter 某 provider 标 Max Output 512K	OpenRouter，2026-06-01
输入模态	文本、图像、视频	官方博客 / OpenRouter
输出模态	文本	OpenRouter，2026-06-01
推理模式	支持"思考开关"（thinking on/off），两种模式同价、可按请求切换	官方博客，2026-05-31
函数调用 / 工具调用	支持（tools、tool_choice 参数）	OpenRouter API 文档
结构化输出	支持 response_format（强制 JSON 等格式）	OpenRouter API 文档
流式输出	支持（stream=true，SSE）	OpenRouter API 文档
采样控制	temperature（默认 1）、top_p（默认 1）、max_tokens、system prompt	OpenRouter API 文档
缓存	支持 prompt caching（命中读取有独立低价；API 全自动缓存无需配置）	官方定价页 / 模型页
实测速度	单 provider 实测吞吐约 18 tokens/s，首 token 延迟约 4.47s	OpenRouter，2026-06-01（仅单一来源，谨慎看待）
部署形态	API（pay-as-you-go + Token 订阅）+ MiniMax Code 产品；权益将开源到 HuggingFace/GitHub	官方博客（"未来 10 天开源权重"），2026-05-31
服务等级	standard（默认）+ priority（service_tier，需销售开通，即将公开）	官方定价页
多语言	中英双语为强项（M 系列一贯），具体语种清单官方未列出	推断 + 官方未明示

几个要点展开说说。

关于"思考开关"：这是 M3 一个很实用的设计。开启思考模式时，它会先在内部做一长串推理（类似草稿纸），适合复杂推理和长任务；关掉则反应快，适合对话和代码补全这种讲究低延迟的场景。两种模式同价——这点对成本规划友好，你不用担心"开思考会贵一截"。

关于"未公开的参数"：M3 的确切总参数/激活参数官方还没公布，要等"未来 10 天内"发布的技术报告和开源权重。原因很清楚——刚发布，技术报告还在路上。在此之前，业界普遍参照它前代 M2 的"229.9B 总 / 9.8B 激活"做推测，但我建议你别当作 M3 的定论。

关于速度：官方主打的是架构层面的"提速"——靠新的 MSA 稀疏注意力，在 100 万 token 长度下，单 token 计算量只有上一代的 1/20，预填充阶段提速 9 倍以上、解码阶段提速 15 倍以上。但这是"相对自家上一代"的提速，不是绝对的 tokens/s。绝对吞吐的权威数据官方没给，OpenRouter 上单个 provider 实测约 18 tokens/s——这个数字偏低，但只是一个刚上线 provider 的早期数据，我不建议你拿它下结论，等更多平台铺开后再看。

三、MSA：它"快"和"长"的底层秘密（白话版）

M3 最大的技术卖点叫 MiniMax Sparse Attention（MSA，稀疏注意力），这是理解它为什么"又长又快"的钥匙，我用大白话讲清楚。

传统的"全注意力"有个根本毛病：每个词都要和句子里所有其他词"打一遍交道"。VentureBeat 那篇报道有个绝妙的比方——这就像你去一个社交酒会，被要求和在场每一个人都深聊一遍，同时还要盯着所有人之间的对话。人少时还行，人一多（上下文一长），计算量是按平方暴涨的（这叫"二次方复杂度"），硬件直接顶不住。

有意思的是，MiniMax 在做上一代 M2 时故意没用那些省算力的"捷径"（比如滑窗注意力、线性注意力）。他们测下来发现，这些捷径虽然快，但会让模型"丢掉大局观"——在超过 32K 上下文的复杂任务上，分数从 90 掉到 72，多步推理能力明显受损。所以 M2 咬牙扛着全注意力的高成本，保住了智商。

M3 的 MSA 就是来解这个两难的。它的思路是：不压缩、不模糊，而是在真实的、未压缩的键值（KV）上做"分块挑选"——把上下文切成一块块，先快速筛一遍哪些块跟当前问题相关，只对相关块做精细注意力。这跟 DeepSeek 的 MLA（把信息压进低维空间）路线不同，MSA 保留了原始信息，所以既快又不丢精度。官方说在大量消融实验里，MSA 在绝大多数能力上能"打平全注意力"。

这对你意味着什么？ 如果你的活儿是"长文档分析""整仓库代码理解""超长 Agent 任务"，M3 的吸引力在于：它把过去"超长上下文 = 极贵 + 极慢"这个枷锁砸开了。1M token 下成本降到 1/20，解码快 15 倍——这让"超长上下文 Agent"第一次在经济上变得可行。这是 M3 区别于绝大多数竞品的真正护城河。

四、性能与基准：它到底强在哪，又弱在哪

这里我要非常诚实地帮你区分三类数据：官方自测、第三方评测、社区复现。M3 刚发布一天，目前能拿到的几乎全是官方自测，第三方独立评测（如 Artificial Analysis）还没把 M3 的综合智能分数稳定上线——我去查了，AA 的 MiniMax 页面目前最高还只列到 MiniMax-M2.7（智能指数 50）。所以下面的官方数字，请你心里挂一个"待第三方验证"的标签。

官方在博客里给出的关键成绩（均为官方自测，评测方法附在博客末尾）：

在编程上，SWE-Bench Pro 得分 59.0%，官方称"超过 GPT-5.5 和 Gemini 3.1 Pro，逼近 Opus 4.7"。Terminal-Bench 2.1 达 66.0%，MCP Atlas 74.2%，SWE-fficiency 34.8%，KernelBench Hard 28.8%。在 SVG 生成（SVG-Bench）上官方称超过 Opus 4.7。

在 Agent/浏览上，BrowseComp 得分 83.5，超过 Opus 4.7 的 79.3。在端到端自主智能体评测 Claw-Eval 上拿了最高分。

在多模态上，OmniDocBench（文档理解）超过 Gemini 3.1 Pro；Video-MME 在 512 帧下得 84.6。

在那些"长跑型"真实任务上，PostTrainBench（让模型自己训练别的模型）M3 得 37.1，排第三，落后于 Opus 4.7（42.4）和 GPT-5.5（39.3），但明显领先其他模型。

怎么解读这些数字？ 三点。

第一，M3 的优势高度集中在"编程 + Agent + 长上下文 + 多模态融合"这个组合拳上，尤其是"长时间自主干活"。它的强项不是单点的智商爆表，而是"能不能盯着一个复杂任务连续干几小时还不跑偏"——这恰恰是当前很多模型的短板，也是 MSA 长上下文的直接受益场景。

第二，要警惕"评测条件公平性"这个陷阱。我仔细读了官方的评测方法学，发现一个值得注意的细节：很多基准 M3 用的是"Claude Code"作为脚手架（scaffolding），而对比的 GPT-5.5、Gemini 用的是各自的 Codex 等。脚手架不同，成绩可比性就要打折扣。另外像 Video-MME 这种，M3 用 512 帧、外部模型用最高思考模式但帧数受 API 限制——评测条件并不完全对齐。所以"超过 GPT-5.5"这类话，在官方选定的条件下成立，换个条件未必。这不是说官方造假，而是 LLM 评测本就高度依赖配置，厂商自测天然会挑对自己有利的设置。

第三，目前看不到 M3 的明显短板数据——但这恰恰是因为数据全来自官方。幻觉率、工具调用稳定性、代码实际可执行率这些"容易暴露问题"的维度，官方自然不会主动放大。真正的短板要等第三方评测和社区大规模复现出来才知道。我的判断是：以 M 系列一贯偏科"Agent/编程"的特点，M3 在纯知识问答、创意写作、非技术类对话上，未必能超过 GPT-5.5、Opus 4.7 这种通用全能型选手。

五、价格与性价比：这是 M3 最锋利的一刀

把官方定价页（platform.minimax.io，2026-05-31 更新）的数字摆出来，你会立刻明白 MiniMax 的打法。

标准档（standard tier），输入 ≤ 512K：

输入 $0.30/百万 token（发布 7 天内五折，原价 $0.60），输出 $1.20/百万 token（原价 $2.40），缓存命中读取 $0.06/百万（原价 $0.12）。

长上下文档（输入 > 512K）： 输入 $1.20/百万，输出 $4.80/百万，缓存读取 $0.24/百万——也就是超过 512K 后，单价翻倍。这个档目前限量、需联系销售，几天内公开。

Priority（优先）档： 比标准档贵 50% 左右（≤512K 时输入 $0.45、输出 $1.80），换更稳定的低延迟，适合 SLA 敏感的工业场景。

订阅制（Token Plan）： Plus $20/月约 17 亿 token，Max $50/月约 51 亿 token，Ultra $120/月约 98 亿 token，且文本/图像/语音/音乐共享一个额度池。官方称这是同价位里全球数一数二的额度。

现在把它翻译成"可感知的钱"（按标准档原价 $0.30 输入 / $1.20 输出算，不算五折）：

写一篇 1500 字中文总结：中文一篇 1500 字大约 2500–3000 token 输出，输入假设 1000 token。成本约 = 0.001×$0.30 + 0.003×$1.20 ≈ $0.0039，零点几美分，约人民币 3 分钱。便宜到可以忽略。

处理一篇 10 万字长文：10 万中文字约 16–18 万 token 输入。如果保持在 512K 档内，输入成本约 0.17×$0.30 ≈ $0.05；若让它输出一份 3000 字（约 5000 token）摘要，再加 $0.006，合计约 $0.056，约人民币 4 角。注意：一旦你的输入冲破 512K（约 35–40 万字），单价立刻翻倍，这是关键的成本断点。

一次带工具调用的 Agent 分析任务：这是成本最不可控的地方。因为 Agent 会反复"思考—调用工具—读结果—再思考"，每一轮都把历史塞回上下文，token 像滚雪球一样涨。前面官方那个 CUDA 例子做了 1959 次工具调用——这种任务跑下来可能消耗几百万乃至上千万 token，成本从几美元到几十美元不等。好在 M3 的缓存命中只要 $0.06/百万（OpenRouter 实测缓存命中率高达 94.8%），这对 Agent 这种"前缀高度重复"的场景是巨大的省钱利器。

同口径横向对比（均取主线/标准档官方定价，输入/输出美元每百万 token，2026 年 5–6 月）：

模型	输入	输出	上下文	开/闭源
MiniMax-M3	$0.30	$1.20	1M	开源(即将)
DeepSeek-V4-Pro	$0.435	$0.87	1M	开源
DeepSeek-V4-Flash	$0.14	$0.28	1M	开源
Gemini 3.1 Pro	$2.00	$12.00	大	闭源
Claude Opus 4.7	$5.00	$25.00	大	闭源
GPT-5.5	~$15.00	~$60.00	大	闭源

来源：DeepSeek 官方定价页（api-docs.deepseek.com）；闭源三家取自 spectrumailab、datacamp、mindstudio 等 2026 年 4–5 月汇总（这些是三手汇总，价格可能随时调整，请以各家官网为准）。

这张表的冲击力一目了然：M3 的输出价（$1.20）只有 Opus 4.7（$25）的二十分之一、GPT-5.5（$60）的五十分之一。即便对比同样走"低价开源"路线的 DeepSeek，M3 的输入更便宜，输出略贵于 V4-Pro 但仍在同一量级。M3 把自己直接钉在了"闭源前沿能力、开源白菜价"这个生态位上。

但我要提醒你几个对比陷阱：其一，闭源模型常有缓存折扣，实际账单未必是表中倍数。其二，M3 超过 512K 后翻倍计价，DeepSeek 则全程 1M 同价——如果你恰恰是吃超长上下文的，DeepSeek 的长文成本反而更稳。其三，DeepSeek-V4-Pro 当前的 $0.435 是"75 折促销价"，官方明说促销在 5 月 31 日后会调到原价的 1/4（约 $0.435 成为常态），这个要持续盯。其四，便宜的前提是吞吐和限速够用——M3 的并发限制、长上下文档的"限量供应"都可能成为生产环境的隐性瓶颈。

六、开源 vs 闭源：六个对手，三种选择

我挑了六个最有代表性的对手，分两阵营和你掰扯。

开源阵营：DeepSeek-V4（V4-Pro/V4-Flash）、Qwen3.7、GLM-5.1。 这三家是 2026 年中国开源前沿的第一梯队。DeepSeek-V4 同样 1M 上下文、支持思考模式、价格极致，是 M3 最直接的正面对手；它的优势在"纯智能/推理"口碑和更稳的长文同价，劣势是原生多模态和"操作电脑"这类能力上不如 M3。Qwen3.7 生态最全（文档、SDK、配套工具一应俱全，背靠阿里云），但 Qwen3.7-Max 是闭源 API、不开权重，开源的是其他档位。GLM-5.1 被业界评为"做长跑自主编程 Agent 最强的开源选项之一"，和 M3 在 Agent 赛道高度重叠，是值得直接对打 A/B 测的对手。

闭源阵营：Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro。 这三个是当下闭源天花板。它们的共性是通用智能的上限更高、生态最成熟、文档和 Agent/RAG 配套最完善、稳定性久经考验，代价是贵（贵 5–50 倍）和闭源（不能私有化部署、要受地区与合规约束）。M3 的官方叙事正是"在编程/Agent/长上下文这几个点上逼近甚至局部超过它们，但价格是零头，而且开源"。

逐维度对比小结：

参数与能力边界上，M3 和 DeepSeek-V4 都是 1M 上下文，但 M3 的"原生多模态 + 操作电脑"是开源里独一份；工具调用、结构化输出大家都有。性能上，纯通用智能闭源三强更稳，编程/Agent/长上下文这个细分赛道 M3 极具竞争力（但记住，目前是官方数据）。价格与可用性上，M3 和 DeepSeek 是数量级的便宜；闭源胜在地区可用性广、合规声明完整。生态上，闭源三强 + Qwen 的 SDK/文档/RAG/Agent 配套最成熟，M3 作为新发布者生态还在搭建（但它配了 MiniMax Code、且承诺开源，追赶很快）。

综合判断与选型建议

把所有线索收束起来，我对 MiniMax-M3 的判断是：它不是一个"什么都想赢"的全能选手，而是一把专为"长时间、跨模态、自主干活的智能体"打磨的利刃。它最锋利的地方有两处——一是 MSA 架构让"超长上下文 + 高速度 + 不丢智商"第一次在开源世界凑齐，二是把闭源前沿级的编程/Agent 能力压到了白菜价并即将开源。它的不确定性也很明确：综合智能的第三方背书还没到位，纯通用任务（知识问答、创意写作）大概率不如闭源全能型，确切参数和真实短板要等技术报告与社区复现。

什么时候选 M3：你在做编程 Agent、长文档/整仓库分析、需要"图文视频一起理解"或"操作电脑"的自动化工作流，且对成本敏感、希望未来能私有化部署。这是 M3 的主场，闭源同类能力下它能帮你省 90% 以上的钱。

什么时候选开源对手（DeepSeek-V4 / GLM-5.1 / Qwen3.7）：如果你吃的是"纯推理/纯长文同价"（DeepSeek 长文不翻倍更划算），或者你重度依赖成熟生态和中文调优（Qwen 系），或者你想在自主编程 Agent 上多挑一个开源选手做 A/B（GLM-5.1）。建议把 M3 和这几个放进同一套你自己的真实任务集里实测，别只看厂商基准。

什么时候选闭源（Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro）：你的任务对"通用智能上限、稳定性、合规、生态完备度"要求极高，预算不是首要约束，或者你需要某些只有这些厂商才提供的企业级保障和地区可用性。简单说——要的是"最稳最全"，而不是"最划算"。

一句话收尾：如果你的关键词是"Agent、长上下文、多模态、省钱、可开源"，M3 现在就值得你建一个测试账号认真试；如果你的关键词是"通用全能、生产稳定、生态成熟"，那就先观望它的第三方评测和技术报告，别急着把生产负载压上去。

文末：三个检验本研究有效性的追问，附我的回答

追问一：如果官方迟迟不公布 M3 的确切参数和综合智能分数，我该用什么替代指标判断它的真实水平？ 我会优先盯三个独立信号：一是 Artificial Analysis 的 Intelligence Index 何时把 M3 收录（这是目前最权威的跨模型横评），二是 OpenRouter/LMArena 上 M3 的真实使用量和盲测胜率（用脚投票比榜单更诚实），三是 GitHub/HuggingFace 上权重开源后社区的复现帖。在这些出来之前，我对所有"官方自测超过 GPT-5.5"的说法都只给"待验证"的信用评级。

追问二：官方基准都用了不同脚手架，可比性存疑，那我怎么做小规模自测来验证 M3 是否真适合我？ 我会建一个 20–50 题的"私有任务集"，全部来自你自己的真实场景（你常处理的那种代码仓库、那种长文档、那种 Agent 流程），然后用完全相同的提示词、温度、工具配置，让 M3 和你现在用的模型跑同一套题，人工或用强模型当裁判打分。重点测三件事：长任务的"跑偏率"（多少次中途放弃或答非所问）、工具调用的成功率、以及同样质量下的实际 token 账单。这种"同口径小样本实测"比任何榜单都更能回答"它对我有没有用"。

追问三：价格这么便宜，会不会有我没看见的隐性成本？ 会，主要在三处。其一是 512K 的成本断点——超过就翻倍，做超长上下文前务必估算你的真实输入长度。其二是 Agent 任务的 token 雪球——反复工具调用会让账单远超直觉，务必善用缓存（M3 缓存命中才 $0.06）。其三是早期稳定性与限速——长上下文档目前"限量、需联系销售"，priority 通道也还没全面开放，生产环境上线前要确认你的并发和 SLA 能被满足。便宜是真便宜，但"能不能稳定地便宜"得自己压测一遍才放心。