深度讨论Fable5：模型收入分化，RSI，Tokenmaxxing 减速

Fable 5是过去半年最受市场期待的模型，而在真正发布之后，它又迅速成为“最具争议”的模型。除了安全禁令外，它的使用体验反差也相当明显：在一些任务里，Fable 5更像一位能独立推进任务的同事，而不再是只会执行的实习生；与此同时，也有一部分开发者却给出相反结论：在很多真实生产任务里，它并没有带来底层智能的质变。
评价的两极其实并不矛盾：只有在高价值任务上，模型的上限才看得见；在那些已经“够用”的任务上，最强模型和低价模型的差距会被迅速抹平。这个分歧本身才是最值得关注的信号：模型能力与收入的分化正在发生。
而GLM 5.2之所以引发讨论，本质上也是“Mythos级别模型”竞争的另一面：Fable 5（以及传闻中即将发布的GPT 5.6）赚取塔尖高价值任务的溢价，而能够迅速追平SOTA的国产模型有机会在吞掉塔基的海量token。
这两股力量指向的是同一个结构。这个结构，也是我们认为下半年最值得下注的判断：前沿模型拿走80%的收入，开源与低价模型处理80%的token。模型能力的分化，正在变成模型收入的分化；而真正决定高价模型收入厚度的，是金字塔顶端的高价值任务到底有多厚。
Insight01
评价分化：高价值任务才看得到模型上限
一线开发者体感
1.在Fable 5的用户使用感受中，有一个很有趣也十分值得重视的分化趋势：
•一方面，不少用户认为Fable 5已经接近project owner的角色：它能主动补充上下文、拆解任务、调用工具、推进流程并验证结果；
•与此同时，也有用户给到完全相反的结论，甚至认为Fable 5相比Opus 4.7/4.8，智能上没有本质变化；
•最有趣的是，即便同是开发任务，Fable在SQL语言任务的表现被认为很强，但在Python类任务里，则被用户评价“与GPT-5.5表现更接近”。
2.这个分歧的本质其实是测试任务的不同。如果具体看两类反馈的实际测试任务，会发现在生活规划、文本格式、常规的coding等已经能被现有模型很好完成的任务上，很难直接、直观地看出Fable 5与GPT-5.5、Opus 4.8、Sonnet级模型的差异，但如果涉及到复杂工程、反编译、auto research、安全攻防、大型系统改造等高价值任务，反而更加容易展示Fable在主动推进、反思纠错、造工具和调度sub-agents的能力。
3.有AI Researcher提到，Mythos在部分开放研究方向选择上已经接近人类研究者判断。在从Claude切回Gemini 3.5继续推进同一类研究工作时，能明显感觉到切换模型带来的任务推进质量下降：原本用Claude已经推进到约70%的研究进度，换回Gemini后可能因为hallucination、instruction following不稳定、无法持续沿着既定实验路径推进等问题，被迫返工或回退，体感进度可能掉到约50%。
4.用户对Fable 5的评价分化，也和在使用时实际运行的模型状态有关。
有用户把Fable 5调到low effort后，使用体感更像一个“稳定版Opus 4.6”，质量仍可用但token消耗可能明显下降；也有人观察到，Fable 5在sub-agent任务里会把简单步骤交给Haiku等更便宜的模型；再加上部分任务会触发safety fallback，实际承接任务的也可能变成Opus 4.8或其他模型。因此不同用户看到的Fable 5，可能对应不同effort、不同routing和不同成本结构，最终评价自然不会完全一致。
5.不过，开发者用户对于Fable的模型体验一定程度上也受到了Fable的安全分类器和访问权限影响，因此，对于绝大多数开发者而言，他们未必能接触到Fable 5的完整能力。比如目前网络安全、生物化学、模型蒸馏等方向更容易被拒答、限制，或路由至Claude Opus 4.8。
6.一个普遍的猜想是，AI for Science、网络安全等高敏感能力未来可能不会完全通过公众模型开放，而是以授权、白名单或专用模型方式提供。
7.资本市场对Fable 5的分歧，也可以放回这套用户体验框架里看。从乐观角度看，Fable 5让高价值任务、超级工程和自动化研究更接近可用，说明模型能力仍在加速；从谨慎角度看，Fable 5还没有体现足够强的TAM扩张driver，使用门槛高，高价值任务的价值量仍没有结论。
Benchmark表现
8.Fable 5在红杉中国Xbench的测评结果更直观地说明了为什么开发者对Fable 5的体感会出现分歧：
•首先，Fable 5的提升没有直接表现为所有benchmark分数全面上涨；
•在ScienceQA等测试里，安全路由、拒答和fallback会拉低总分，但把输出token等细项拆开看，它在部分任务上能用更短的推理链完成回答。
成本
9.综合Xbench中Fable 5平均输出token更低的结果，以及部分开发者把effort调到low后的实际体验，可以得到一个粗略的成本估算：Fable 5的token单价虽然约为Opus 4.8的5倍，但在一些任务里，由于输出token和中间推理消耗更少，token用量约只有Opus 4.8的1/2，甚至如果将effort调成low，中间过程用量会低于1/5，因此，Fable 5在low effort综合成本可能低于Opus 4.8。
10.但这并不意味着Fable 5在所有场景里都更省钱。在更接近真实coding agent的CursorBench里，成本和性能的关系会变得更复杂。
11.CursorBench 3.1显示，Fable 5 Max分数最高，但cost/task也最高；同时，test-time compute scaling已经比较平缓，继续增加推理预算仍能换来更高分，但单位成本带来的边际提升已经下降。
Insight02
Use Case：企业Workflow重塑
12.有创业团队提到，Fable 5已经几乎重塑了他们的工作流程。现在更多是由人来确定目标、边界和验收标准，模型负责拆解任务并推进执行。随着Fable 5在端到端任务上的能力提升，人和agent的分工也在变化：团队越来越像一个file system，每个人都是独立IC，把任务交给模型后持续跟进结果。
13.虽然Fable 5能自己补上下文、拆任务、开sub-agent、自检和修正，但这不意味业务流程就自动化了。因为模型能并行调用100个sub-agent，也可能把错误路线放大；真正可复用的workflow需要稳定输入、输出、状态管理、异常处理和验收标准。无论是Opus 4.8还是Fable 5，从0到1搭建一个可复用workflow仍然很费劲，最后常常需要人花一两周重新整理和改写。
14.企业提效的基础框架仍然是workflow加toolchain，AI只是让后两步发生变化。
15.企业AI转型的关键，不只是用AI替代现有流程，而是重构流程本身。减少信息传递、压缩协作层级、简化决策链路，往往比单纯给员工配更强的模型更能创造价值。
16.随着模型能力提升，面向coder和非coder的agent将走向两条不同路径：
•Coder需要更开放、更可编程的系统；
•非coder需要更简单、更稳定的任务界面，依赖GUI、预定义工作流完成工作。
17.大部分用户没有必要同时扮演生产者和消费者，harness的价值是把模型能力封装成可直接使用的工作界面。
18.设计、3D和交互demo
用户在three.js、3D世界构建和one-shot网站设计中感受到Fable 5的design taste有明显提升。比如Fable 5能生成更复杂的3D demo，复杂度从简单小游戏提高到接近“Minecraft”风格的互动场景；在one-shot网站设计中，Fable 5第一次生成的网站就已经有一定美感，AI配色感更弱，也更会在视觉表达上做减法，呈现出一些“less is more”的design taste。
19.反编译和隐藏上下文获取
在这类任务里，Fable 5需要从网页、混淆JS、Android App、游戏ROM和运行逻辑里获取上下文，再还原产品功能或游戏机制。
一个例子是把web游戏还原到Godot，Fable 5能通过混淆JS还原第一关逻辑，代码可以运行，主要元素也能复现。短板主要出现在视觉细节上，元素大小、重叠、缩放和参考图对齐不够稳定，即使用户提供参考图，模型也未必能把所有视觉细节调准。
“混淆JS”通常指JavaScript代码混淆（JavaScript Obfuscation），就是把原本容易阅读和理解的JavaScript源代码转换成难以阅读但功能不变的代码。
有开发者认为，类似于“混淆JS”这类能力其实从Opus 4.6开始就可能已经逐步形成，这类能力与安全和黑客技巧相关训练被模型吸收有关，也给网络安全提出了更高要求。
20.TypeScript Eval
这个任务相当于写一个Excel，规格文档有几千行。Fable 5用了约3小时、花费约200美元一次完成，是第一个完成该任务的模型。相比之下，GPT-5.5 xhigh大约需要10小时，功能完成度接近90%，但工程决策和性能较弱。
这个例子一定程度上可以说明Fable 5已经能搞定一些旧模型容易卡住的复杂POC。不过，虽然这类复杂任务后续可以交给Fable 5，但日常开发场景里，开发者认为自己大概率还是会优先用Codex。
21.Long Horizon任务
一位CTO级用户过去一年AI编程超过100万行，最近3个月日均AI coding成本超过1000美元。Fable 5开放后，他拿之前做过的生产任务重新对比和延续测试，两天花费超过1万美元。实际体验下来，他认为Fable 5相比Opus 4.7/4.8，主要提升在工具调用熟练度和稳定性上，智能水平没有本质变化。
也有开发者基于OpenClaw自研了一个飞书上层插件系统，在企业内部部署了约300套，用户希望模型写一个每天定时自动升级这个系统的workflow：能自动找到最新版本，处理OpenClaw和Hermes升级，保留自研patch，修复上游merge后的冲突，并能持续复用。在已有1.0基础上，Fable 5能处理具体版本问题，也能理解部分升级和patch修复工作，但它反复把“写一个通用升级workflow”误解为“针对0606版本修一个patch”。
也有开发者提到，在使用Fable 5直接跑一些long horizon任务时，主要卡点是任务跑得很久以后忘掉前面的信息。虽然Fable的long horizon能力有增强，但距离“无限上下文和无限可靠执行”还存在距离。
Insight03
模型能力分化带来模型收入分化
22.Fable 5实测中的“体验分化”会指向一个潜在趋势，即人们在使用模型时，会开始判断任务本身是否值得消耗最强模型。比如对于“Mythos级别”模型而言，一个好标准是：不要只问“Fable能不能做”，更要看“Sonnet/Opus是否也能做得差不多”。如果旧模型也能凑合完成，Fable的溢价就不一定成立；如果任务超出用户和旧模型的能力边界，Fable才更容易体现差异。
23.相对应，高价值任务也可以用三条标准判断：
•模型需要主动获取上下文，
•结果可以被清晰验收，
•任务本身能承受更高探索成本。
当模型要自己读代码、查环境、补背景、拆步骤、调用工具并验证结果时，Fable 5更容易体现价值；当用户只把Fable当执行器、交给它已经定义清楚的小任务时，Fable与其他模型之间的差距会被压缩。普通coding、生活规划、聊天和结果较fuzzy的任务容易低估Fable 5，通常就是因为验收不清或成本不值得摊开。
24.Fable 5的ROI取决于任务价值，token价格只是其中一个变量。对于上亿规模的投资决策，或支撑上亿DAU应用的核心infra，额外token成本相对业务价值已经不再是主要约束。虽然当前我们还无法完全信任Fable 5/Mythos承接这类高价值任务，但方向已经可见。如果未来1–2年模型成本再下降两个数量级，这类场景的可行性将明显提升。
25.但在普通白领和C端场景里，Opus 4.6、国产模型或低价模型可能已经够用，因此前沿模型的商业问题变成：金字塔顶端的高价值任务有多厚、能产生多少收入、是否足够支撑持续扩张。
•模型价值分布可能比人类社会更偏向头部，因为模型供给比顶级人才供给更具弹性，小幅能力提升也可能带来显著价值差异。
•模型市场可粗略看作P×Q：P是单个任务价值，Q是任务数量。随着模型成本下降，更多高价值任务会被释放出来，头部模型的价值集中度可能进一步提升。
26.AI时代的ToB生产力市场可能是ToC的很多倍，推荐系统、搜索系统、底层infra、企业内部工具链和大型工程重构，都会消耗大量token。Fable 5的multi-agent/sub-agent能力让超级工程更可行，或许未来模型可以做到自主写一个Google、一个Office或重构大型系统。
27.其实在Fable 5的sub-agent workflow里，并不一定每个环节都由最强模型完成，一些简单子任务可能会被路由给更便宜的Haiku。比如，在一些case中，如果在Codex/Claude Code等环境里接入DeepSeek、Gemini API或本地小模型，这些模型也可能进入可调用的模型池。但当前的问题是routing还不够透明，用户很难知道每个步骤到底用了哪个模型、为什么这样分配，以及最终是否真的省钱。
28.未来一种可能的格局是，前沿模型拿走80%revenue，开源或低价模型处理80%token，也就是说，高价值任务继续交给frontier model，低价值或可批量化任务交给便宜模型。
29.低价模型需求不只来自C端，也来自ToB任务里的大量中低难度步骤。很多企业任务虽然整体是long horizon，但拆开后，大量step只需要GPT-4 level intelligence。
30.一位做ToB场景的开发者提到，他团队内部bench显示，DeepSeek V4可能已经接近GPT-4o mini水平。因此，只要低价模型能够稳定提供GPT-4级别的智能水平，就有机会在ToB场景中承接大量任务。
31.虽然frontier lab也可以通过蒸馏把小模型做得很好，但在推理算力稀缺、高价客户供不应求时，frontier lab缺少动力去卷低价模型市场。
32.专门打高性价比的模型，也可能在training、架构和推理infra上做不同选择，比如Google这类拥有芯片、Infra、模型和产品线的公司，可能通过Flash等路线把成本优化做到极致。
33.国产半导体供应链和国产模型会一起进入“自主可控”叙事。国产模型的机会来自两方面：
•后发蒸馏和低成本推理；
•大量普通场景只需要足够好的智能。
34.但如果头部模型公司愿意优化同等智能小模型，国产模型的单位成本优势能否长期保持，还需要观察。
35.Routing的商业机会可能更集中在harness层：
•Coding可能是特殊场景，因为coding agent能看到仓库、sandbox、日志和测试，比较容易端到端闭环。很多vertical agent只知道一次LLM API call给了什么context，并不知道任务ROI最高的模型是哪一个。
•真正有价值的routing，需要理解任务目标、上下文、验收方式、用户偏好、成本约束和可用模型池，因此可能成为intelligence allocation的核心位置。
Insight04
Eval和任务设计决定下一代模型迭代方向
36.Fable在implicit intent上的表现更强，包括什么时候改代码、什么时候不改、什么时候拒绝危险请求；这种能力可能来自大量用户trace和trajectory的分析、清洗和再训练。
37.从模型训练角度，到了Fable 5这一代，Eval和任务设计会更直接地塑造模型迭代方向。过去6到12个月，用户还能凭日常体感感受到模型迭代，但现在，即使用户在日常使用中没有aha moment，也不能直接说明模型能力没有提升，可能只是用户的任务想象力、需求定义能力和工作环境没有跟上。
38.对模型公司来说，选择什么eval、把什么行为定义成“好模型”，会直接决定下一代模型擅长什么。
39.ToC和ToB可能走向两套模型优化体系：
•ToC场景需要围绕用户体验建立商业模式。用户更关注快（速度）、好（效果）、省（成本），模型推理成本需要接近微信、抖音等头部C端应用能够承受的用户成本，AI才能大规模进入生活场景。工作提效只是其中一部分，陪伴、娱乐、学习和个人服务等场景同样重要。
•ToB场景会继续追求更高水平的智能。企业愿意为大型工程、高价值业务流程和决策支付溢价，因此模型能力、可靠性和可控性仍然是核心竞争力。
40.从长期看，市场划分可能进一步从ToC/ToB演变为To human/To agent，未来机器人也可能成为巨大的智能消耗终端。
41.Anthropic和OpenAI的差异，既体现在模型大小，也体现在训练方向、产品harness和商业打法上：
•Anthropic更相信scaling，也更聚焦text/code based data、企业级场景和大模型规模；OpenAI的RL、产品矩阵、迭代速度和商业打法更强；
•Anthropic的harness让模型更会组织任务、调用工具、维护上下文、分配sub-agent、把中间结果汇回主agent。GPT-5.5还没有像Claude那样训练dynamic workflow能力，如果OpenAI补齐multi-agent和workflow，与Fable 5在multi-agent任务上的差距可能收窄。
42.理想情况下，模型需要先理解用户真实意图，再判断自己有没有能力完成。但很多用户无法把真正想要的东西说清楚，隐性意图、使用习惯、工具偏好和项目背景都需要模型推断。
43.需求定义能力正在成为新的瓶颈，很多token浪费来自需求本身不清楚。“一句话让模型完成复杂任务”往往难以奏效，就像人类团队也无法仅凭老板的一句话就准确交付复杂项目。
44.随着任务复杂度提升，需求需要被结构化表达，包括背景、目标、边界、验收标准和迭代方式。OPP（Objective-Problem-Proposal）等框架，本质上是在将需求对齐工程化。无论是人与AI，还是AI与AI协作，缺少清晰的需求对齐机制，产出都难以稳定复现。
45.这个判断也能放到GPT-5.5与Fable的工程对照里看。有团队把GPT-5.5长期用在真实代码库中，发现它并非不能跑长程工程；只要任务被拆得足够清楚，并配套规范、AGENTS.md和验收条件，GPT-5.5也能连续跑几十个小时，交付出可接受的结果。
•测试体系迁移就是一个例子。有一个项目里原来有3000多个依赖mock的测试用例，需要迁移到真实环境，当团队把目标拆成“把mock用例改成真实测试用例”后，GPT-5.5基本完成了迁移，上线可控性明显提高。这说明，当任务足够小、验收足够明确时，GPT-5.5也能跑完数量很大的长程工程。
•大文件重构则提供了反向参照。团队让GPT-5.5自由重构时，它会改一小部分就停下来；后来团队加入“文件行数必须降到1000或2000行以下”这类硬约束后，模型才连续跑了接近两天，把8到9个大文件拆得更细。
Insight05
Tokenmaxxing减速≠AI泡沫
46.Tokenmaxxing可能是阶段性难题，本质原因在于企业暂时选错了KPI。
•如果企业把token用量当成AI转型排行榜，就会出现reward hacking，大家为了证明自己AI-native而狂烧token；
•更健康的KPI应该转向valuemaxxing：哪些人、哪些practice group、哪些workflow、哪些任务消耗了token，它们是否流向更高价值工作。
47.数据库和Snowflake时代已经出现过类似问题：大量query带来高账单，企业需要dashboard看清查询是否支持了业务价值。AI时代的dashboard更复杂，可能需要FDE或现场工程团队为客户定制。
48.普通用户和重度用户的成本差异过大，订阅制会越来越难支撑。重度用户会把每月固定订阅迅速用完，普通用户又不愿为高额度买单。
49.Codex和Claude Code自身也在承受高token成本压力，未来可能出现更细的任务计价、额度控制、模型路由、企业预算包和结果导向定价。
50.企业token dashboard的核心，未必是直接衡量价值，第一步是让用户知道token花在哪里。很多vertical场景中，供应商无法准确知道某次输出给客户创造了多少价值，这只有客户自己知道，客户如果认可token流向更值钱的工作，就更容易接受预算增长。如果token value能被dashboard展示清楚，AI行业增长可能回到更健康的状态，甚至出现二次加速。
51.国内token压力还没有全面爆发，原因是客户铺开程度和成本结构不同：
•真正有钱的客户还没有全面铺开token消耗；
•在电商、招聘、广告等场景中，token使用更容易形成明确的价值正反馈；
•国内token成本更低。
Insight06
RSI：AI Labs共同的“高价值任务”
52.对前沿模型公司来说，价值最高的一类任务可能发生在内部，也就是让模型参与并加速下一代模型的研究、训练、评估、方向选择。Recursive Self Improvement是下半年最重要的技术主题之一。
53.RSI和tokenmaxxing是一体两面：能close loop的任务更容易证明token价值。人和agent共同协作时，很难拆清价值到底来自人、模型、工具还是组织流程，只能粗略看token；因此容易评估的任务可以通过RSI或closed-loop eval直接优化，不容易评估的需要先构建benchmark和KPI。
54.目前头部labs基本都在做closed-loop research或automated research。如果内部模型持续领先于外部模型，并率先用于研究自动化，模型能力与研发效率之间就会形成飞轮。一旦飞轮转起来，最强模型可能长期优先服务于内部研发。这会拉大实验室之间的差距，也解释了为什么labs内部研究者对Mythos/Fable的评价更积极。
55.未来可能出现的两个发展路径是：
•某一家实验室率先把模型自己的迭代速度提高，建立领先优势；
•所有头部实验室都在一定程度上用RSI解决更难的research问题，但因为实验资源和边际收益限制，提升速度逐渐放缓。
56.RSI也会改变组织架构：当模型能端到端跑研究或工程任务，人类的瓶颈从操作执行转向目标定义和结果评估。真正重要的是写清loop、goal和eval rubrics，让agent知道什么算完成，什么算有价值。这也会反过来要求企业建立更强的任务环境、数据接口、权限体系和安全边界。
Insight07
AI基建瓶颈：算力与存储
Sub-agents对存储的影响
57.Mythos最大的特点之一是Sub-agents workflow，它训练的难点在于，从“同一个模型分饰两角”走向“主模型调度小模型”后，算法和training infra都会变复杂。
58.当前更直接的做法是end-to-end训练同一个checkpoint，让它在同一环境里同时扮演主agent和sub-agent：主agent偏规划，sub-agent偏执行，相当于用两个loss function一起优化。这种做法的前提是二者共享同一套模型架构和参数。
59.更复杂的下一步，由大模型主Agent调度一个或多个小规模的sub-agent模型，这样就从训练单一模型，升级为同时训练和对齐多套模型。小模型如果只学执行，可能会损失必要的planning能力，因此还需要额外任务设计、数据清洗和评估体系。
60.Sub-agents workflow其实可以看成一种memory scaling：
•主agent不再把所有细节都塞进自己的context window，任务会先被拆给多个sub-agent；
•每个sub-agent在自己的上下文里处理一部分信息，完成后只把结论、代码改动或关键结果汇总回主agent。
•这种设计会减慢主agent context window的消耗，也能缓解1M context window继续扩大带来的硬件和batch size压力。
61.这个结构的关键成本在共享context。主agent分配任务给多个sub-agent时，往往会重复传递用户背景、项目约束、工具偏好、任务目标等信息；
•如果这些内容能作为shared prefix复用，prefix caching和batch inference就能显著降低KV cache转移成本。
•一个例子是，50K token的KV cache如果作为shared prefix复用，batch inference中的KV cache转移开销可能下降约20倍。
62.Sub-agent也会提高batch size，从而改善推理侧毛利：
•普通场景下，一个用户同时打开的并行thread数量有限，batch size可能只有34到35左右；
•agents-workflow一次拉起几十个sub-agent后，可以让batch size长期维持在更高水平。
对模型公司来说，batch size更高意味着单位推理成本下降；对用户来说，这表现为任务并行推进更强，但token消耗和底层资源开销更不容易被感知。
63.Sub-agents workflow对存储的影响存在Jevons paradox。
•单位任务的存储成本可能下降。更多sandbox runtime可以放在NAND里，利用率提升后，单次任务的存储成本可能下降；多个thread/sub-agent反复读取共享状态，也会让CXL内存池更有用。
•但总存储需求可能反而上升。高价值任务会持续增加存储和内存消耗，而这类硬件供给更接近线性增长，未必追得上智能需求扩张。workflow把单次调用做得更省后，用户可能会运行更多任务，最终推高总存储和内存需求。
Jevons Paradox（杰文斯悖论）指的是当一种资源的使用效率提高后，人们往往会更多地使用它，结果导致该资源的总消耗反而增加，而不是减少。
算力供给决定能否打价格战和ARR上限
64.算力供给决定了模型公司短期ARR的天花板，也影响模型公司能否打价格战。因此，相比Anthropic，OpenAI不仅更有动力，也有充分的算力空间通过降价来抢夺市场份额。比如最近GPT-5.6传出降价预期，可能也是为了抢企业ARR和市场份额。
•Anthropic：Anthropic非常缺算力，有市场消息，Anthropic的算力量级大概在2-3GW，其中约一半用于training，真正用在inference上的供给更紧；
•OpenAI：OpenAI算力更充足，有人猜测OpenAI的算力可能超过了5GW，因此更有空间用降价抢份额。OpenAI的价格空间主要来自两点：
1）B卡带来的推理效率提升；
2）如果OpenAI的模型激活规模能做到小于Fable，那么单位推理成本就会更低。
65.一个潜在的趋势是，旗舰模型长期会变便宜：虽然模型的reasoning token和参数量在增加，但API价格仍在下降。事实上，模型在生命周期内的降价并不罕见，例如GPT-4o发布时API价格较GPT-4 Turbo低约50%，相比之下，Anthropic的降价频率较低。
66.Anthropic短期能否盈利，关键看算力采购是否匹配收入增长。如果算力买少，模型供给会受限，企业ARR增长会受到压制；如果算力买多，短期折旧和租赁成本会拉高亏损。
67.长期看，如果头部模型公司的ARR能做到3000亿美元级别，即使每年training cost达到300亿到500亿美元，inference毛利维持在60%左右，盈利模型仍然可能成立。
68.在每GW能支持多少收入这个问题上，市场的估算范围在25-45B之间，估算差异很大。
69.Fable/Mythos的访问限制和监管风险，可能会增加企业对备用模型和硬件的需求。如果企业担心前沿模型因监管或安全风险被限制访问，会更重视备选方案，包括自研模型、基于开源模型微调、内部模型储备和多供应商部署。即使不考虑Fable 5这种最前沿模型，仅Opus 4.6到4.8这一代的需求也已经很旺盛，硬件产业链仍然处在瓶颈状态。"

作者：欧皇娱乐

新闻资讯 News

案例展示 Case

现在致电 8888910 OR 查看更多联系方式 →

现在致电 8888910 OR 查看更多联系方式 →