好的，从物理定律出发，用第一性原理推演 AI 的未来。

从物理层推演 AI 未来

第零层：为什么是现在？

AI 发展的根本驱动力是物理约束的变化。

过去 60 年，计算的基本物理一直在变慢：

摩尔定律变慢（晶体管缩小越来越难）
登纳德缩放定律 2006 年失效（频率不能再提高）
内存墙（内存速度远慢于计算速度）

但 AI 打破了一个关键瓶颈：用大量简单计算替代复杂逻辑。

本质上，AI 把「程序员写规则」变成了「数据 + 梯度找规则」。这件事在物理上可行，是因为：

并行计算比串行计算更接近物理极限
矩阵乘法可以用专用硬件极致优化
训练可以容忍低精度（FP8/FP4/INT4）

所以 AI 的爆发是计算物理演进到一定阶段的必然。

第一层：计算的物理极限

基本物理约束

兰道尔原理：每擦除 1 bit 信息，最小耗能 = kT·ln2 ≈ 2.87×10⁻²¹ J（室温）

现代 GPU 实际每 FLOP 能耗：
- 2020 年 H100：约 10⁻⁹ J/FLOP
- 物理极限：约 10⁻²¹ J/FLOP

差距 = 10¹² 倍（12 个数量级）

结论：计算效率还有巨大提升空间，
但提升路径不是无限制缩小晶体管，
而是改变计算方式本身。

三个硬约束决定 AI 硬件演进方向

约束	物理本质	后果
功耗墙	芯片散热受限于面积和冷却方式	单芯片功率天花板约 1000-1500W 详见→
内存墙	数据搬运能耗远大于计算	必须减少数据移动
互连墙	信号传播速度受光速限制	大规模系统通信延迟不可消除

这三个约束不是工程问题，是物理定律。所有未来趋势都从这三个约束推导出来。

第二层：从约束推演硬件演进

2.1 GPU 架构：为什么长这样？

第一性推理：

问题：单芯片功耗上限 ~1000W
 ↓
只能增加并行度，不能增加频率
 ↓
需要大量简单核心，而非少量复杂核心
 ↓
核心之间需要高效通信
 ↓
→ Tensor Core 架构（矩阵计算专用单元）
→ 片上网络（NVLink/NVSwitch）
→ 大容量片上 SRAM（减少访存）

GPU 架构演进的必然方向：

代际	变化	物理驱动
Volta (2017)	引入 Tensor Core	矩阵乘法专用，比通用 ALU 能效高 10x
Hopper (2022)	FP8 + Transformer Engine	低精度容忍 → 能效再提升
Blackwell (2024)	双 die 封装	单 die 面积受限 → 合并两个 die
Rubin (2026)	推理专用优化	推理需求 > 训练需求
下一代	存算一体 / 光互连	内存墙和互连墙的终极解法

2.2 HBM：为什么内存是最大瓶颈？

第一性推理：

问题：计算速度每 2 年翻倍，内存带宽每 6 年才翻倍
 ↓
计算单元大部分时间在等数据
 ↓
必须把内存放得离计算越近越好
 ↓
→ 3D 堆叠（HBM）：内存直接放在 GPU 上面
→ 更宽的总线（HBM3E：每栈 1024-bit）
→ 更多栈（4→6→8→12 栈）

HBM 演进趋势：

HBM2 (2016) → 256 GB/s/栈 → 4 栈 → 总带宽 1 TB/s
HBM3 (2022) → 665 GB/s/栈 → 6 栈 → 总带宽 4 TB/s
HBM3E (2024) → 1.2 TB/s/栈 → 8 栈 → 总带宽 9.6 TB/s
HBM4 (2026) → 2 TB/s/栈 → 12 栈 → 总带宽 24 TB/s

但 HBM 有一个根本物理限制：
3D 堆叠层数越多，散热越难
 ↓
堆叠高度受限 → 单栈容量受限
 ↓
必须用更多栈 → 占用更大面积 → 与 GPU 争抢封装空间
 ↓
→ 先进封装成为关键

HBM 供应链瓶颈：

环节	供应商	瓶颈程度
HBM 芯片	SK海力士/三星/美光	极高（SK海力士占 80%+ 份额）
TSV 硅通孔	同上	高
堆叠封装	同上 + 台积电	极高
基板	日本旗胜/信越	高
测试	爱德万/Teradyne	中

投资含义：HBM 产能是 AI 算力扩张的硬约束。谁控制 HBM 产能，谁控制 AI 算力供给。

2.3 先进封装：为什么成了核心？

第一性推理：

问题：单芯片面积受光刻机限制（reticle limit ≈ 830mm²）
 ↓
单 die 性能不够 → 必须多 die 组合
 ↓
die 之间需要超高带宽互连
 ↓
传统 PCB 走线带宽不够
 ↓
→ 2.5D/3D 封装：die 之间用硅中介层互连
→ CoWoS：台积电的 2.5D 封装技术
→ SoIC：3D 混合键合（die 直接叠 die）

封装技术演进：

传统封装（引线键合）
 ↓ 带宽：几十 GB/s
2.5D 封装（CoWoS，硅中介层）
 ↓ 带宽：几 TB/s ← 当前主流
3D 封装（SoIC，混合键合）
 ↓ 带宽：几十 TB/s ← 正在量产
3D 存算一体（逻辑+内存垂直堆叠）
 ↓ 带宽：接近片上SRAM ← 未来方向
光互连封装（CPO/LPO）
 ↓ 带宽：理论无上限 ← 终极解法

先进封装为什么是瓶颈中的瓶颈？

台积电 CoWoS 产能严重不足 — 等待期 6-12 个月
几乎没有替代品 — 三星/Intel 在追赶但良率低
扩产极难 — 需要精密设备、无尘室、长期经验积累
HBM 必须 + CoWoS 才能用 — 两者绑定

投资含义：先进封装是 AI 硬件供应链里最窄的瓶颈。不是芯片设计，不是光刻，是封装。

2.4 光互连：为什么是终极方向？

第一性推理：

问题：电信号在铜线中传输
 → 高频衰减严重
 → 传输距离有限
 → 功耗随带宽线性增长
 → 物理上限约 100 Gb/s/lane
 ↓
光信号不受这些限制
 → 衰减小（可传数公里）
 → 带宽潜力大（WDM 波分复用）
 → 功耗与带宽弱相关
 ↓
→ 用光替代电做数据传输

光互连的演进路线：

当前：可插拔光模块（800G/1.6T）
 └─ 交换机外，距离 >100m
 ↓
LPO（线性直驱光模块）
 └─ 去掉 DSP 芯片，降低功耗和延迟
 ↓
CPO（共封装光学）
 └─ 光模块和交换芯片封装在一起
 └─ 功耗降低 50%，密度提高 5x
 └─ 2025-2027 开始小规模部署
 ↓
片上光互连（On-chip Optical I/O）
 └─ GPU die 之间用光通信
 └─ 解决 NVLink 铜线带宽极限
 └─ 2028-2030 可能出现
 ↓
片内光计算（Optical Computing）
 └─ 用光做矩阵乘法
 └─ 理论能效比电子计算高 1000x
 └─ 2030+ 远期方向

光互连供应链瓶颈：

环节	A股相关公司	瓶颈程度
激光器（VCSEL/DFB）	源杰科技/长光华芯	极高
硅光芯片	中际旭创/新易盛（设计）	高
光引擎	天孚通信/中际旭创	极高
TIA/Driver 芯片	几乎全进口	极高
光纤连接器	太辰光/藤仓	中

2.5 AI Agent：为什么是必然？

第一性推理：

问题：大模型只能回答问题，不能做事
 ↓
AI 的价值 = 理解力 × 执行力
当前：理解力 ≈ 80%，执行力 ≈ 5%
 ↓
必须补上执行力
 ↓
→ Agent = LLM + 工具调用 + 记忆 + 规划
 ↓
Agent 需要什么硬件？
 → 更低延迟（实时交互）
 → 更强推理能力（规划/判断）
 → 更多内存（长上下文/记忆）
 → 更低功耗（边缘部署）

Agent 对硬件的影响：

Agent 需求	硬件含义
实时响应	推理延迟 < 100ms → 需要低延迟推理芯片
长记忆	上下文 1M+ tokens → 需要超大 HBM 容量
多步规划	KV Cache 极大 → 需要存算一体或更大片上 SRAM
大量并发	同时服务百万用户 → 需要推理集群 + 高速互连
边缘部署	手机/机器人端 → 需要低功耗推理芯片（NPU）

推理需求将远超训练需求：

训练：1 个大模型训练一次
推理：1 个大模型服务数十亿用户，每天推理数十亿次

推理/训练算力比：
2024年 ≈ 2:1
2026年 ≈ 5:1
2028年 ≈ 10:1

推理芯片可能是下一个大机会

2.6 多模态：物理上为什么难？

第一性推理：

问题：不同模态的数据速率差异巨大
 ↓
文本：1 token ≈ 4 bytes
图像：1 张图 ≈ 1000 tokens ≈ 4 KB
视频：1 秒视频 ≈ 30 帧 ≈ 120 KB
音频：1 秒音频 ≈ 16 KB

多模态 = 同时处理这些不同速率的数据
 ↓
→ 内存需求爆炸（同时缓存多种模态）
→ 互连需求爆炸（模态之间需要交叉注意力）
→ 推理延迟要求不一致（文本慢一点没事，视频必须实时）

多模态对硬件的影响：

需求	硬件影响
视频理解	KV Cache 扩大 10-100x → HBM 需求暴增
实时生成	推理吞吐量要求极高 → 推理专用芯片
模态融合	跨模态注意力 → 互连带宽需求暴增
端侧部署	手机/AR 眼镜 → 超低功耗 NPU

2.7 物理 AI（机器人）：最终形态

第一性推理：

问题：AI 只活在数字世界，无法影响物理世界
 ↓
AI 的终极价值 = 在物理世界中行动
 ↓
→ 物理 AI = 感知 + 决策 + 执行
 ↓
需要的硬件：
→ 感知：传感器（视觉/触觉/力觉/惯性）
→ 决策：端侧推理芯片（低延迟、低功耗）
→ 执行：电机驱动 + 运动控制

物理 AI 的独特硬件约束：

约束	原因	硬件方向
功耗	电池容量有限	端侧 NPU（< 10W）
延迟	实时控制 < 1ms	存算一体 / 边缘推理
鲁棒性	物理世界不可预测	冗余传感器 + 安全芯片
成本	要大规模部署	成本敏感 → 国产替代机会

物理 AI 供应链：

机器人 = 感知 + 决策 + 执行

感知层：
├── 视觉传感器 → 奥比中光/舜宇光学
├── 力/触觉传感器 → 宇立仪器/柯力传感
└── 惯性传感器 → 敏芯股份/士兰微

决策层：
├── 端侧 AI 芯片 → 地平线/寒武纪
├── MCU → 兆易创新/芯海科技
└── 通信模块 → 移远通信/广和通

执行层（核心瓶颈）：
├── ⭐ 精密减速器 → 绿的谐波/双环传动（供应商极少）
├── ⭐ 伺服电机 → 汇川技术/禾川科技
├── ⭐ 编码器 → 海德汉（进口）/奥普特
└── 丝杠/导轨 → 贝斯特/恒立液压

执行层是物理 AI 最大的瓶颈：
- 减速器供应商全球 < 10 家
- 验证周期 2-3 年
- 精度要求极高
- 扩产需要特种设备
→ 典型的 Serenity 瓶颈特征

第三层：汇总 — 从物理到投资

物理约束 → 技术方向 → 投资机会

物理约束	必然的技术方向	投资机会（按确定性排序）
功耗墙	低精度计算 + 专用芯片	GPU/AI芯片（NVDA/AMD/海光）
内存墙	HBM + 存算一体 + 大容量SRAM	HBM供应链 + 先进封装
互连墙	光互连（CPO→片上光I/O）	光模块/硅光/激光器
封装面积	2.5D/3D 先进封装	CoWoS产能/封装设备
推理需求	推理专用芯片 + 边缘部署	推理芯片/端侧NPU
物理世界	传感器 + 执行器	机器人减速器/电机/触觉

确定性排序

最高确定性（物理定律驱动，必然发生）：
├── HBM 需求持续增长（内存墙的必然解）
├── 先进封装需求持续增长（面积约束的必然解）
├── 光互连逐步替代铜互连（带宽约束的必然解）
└── 推理算力需求超过训练（规模效应的必然结果）

高确定性（技术趋势明确）：
├── AI Agent 成为主流交互方式
├── 多模态融合成为标配
├── 端侧 AI 芯片需求爆发
└── 推理专用芯片出现

中确定性（方向对，时间不确定）：
├── 存算一体大规模商用
├── 物理 AI（机器人）大规模部署
├── 片内光计算
└── 通用人工智能（AGI）

跨市场投资地图

层级	美股	A股	港股
AI芯片	NVDA/AMD/AVGO	海光/寒武纪	-
HBM	MU	-	-
先进封装	TSMC	长电/通富	中芯国际
光互连	LRCX/COHR	中际旭创/天孚/新易盛	-
设备	AMAT/LAM/KLAC/ASML	中微/北方华创/拓荆	-
材料	-	彤程/安集/沪硅	-
机器人执行	-	绿的谐波/汇川/双环	-
端侧AI	QCOM/MRVL	地平线/瑞芯微	-

第四层：什么情况说明判断错了？

假设	如果错了会怎样
AI 需求持续增长	大厂资本开支削减 → 整条链崩塌
HBM 是必然路径	新型内存架构突破（如存算一体成熟）→ HBM 被绕开
光互连会替代铜	铜互连技术突破（224G PAM4 延续）→ 光互连推迟
先进封装是瓶颈	新封装技术突破 → 产能释放，稀缺性消失
机器人会爆发	技术路线受阻/成本降不下来 → 物理 AI 推迟 5-10 年

总结

从物理层推演，AI 硬件演进的底层逻辑是：

 功耗墙 + 内存墙 + 互连墙 = 三个物理硬约束

 所有技术方向都是这三个约束的必然解：
 ├─ 功耗墙 → 专用芯片 / 低精度计算
 ├─ 内存墙 → HBM / 存算一体
 └─ 互连墙 → 光互连 / 先进封装

 当前最窄的瓶颈：先进封装 > HBM > 光互连激光器

 下一个范式转换：
 从"电计算+电互连" → "电计算+光互连" → "光计算+光互连"

 AI 的终极形态：
 数字世界：AI Agent + 多模态（推理需求主导）
 物理世界：物理 AI / 机器人（执行层是瓶颈）

这是研究框架，不构成投资建议。交易决策由你自己决定。

从物理层推演 AI 未来

从物理层推演 AI 未来

第零层：为什么是现在？

第一层：计算的物理极限

基本物理约束

三个硬约束决定 AI 硬件演进方向

第二层：从约束推演硬件演进

2.1 GPU 架构：为什么长这样？

2.2 HBM：为什么内存是最大瓶颈？

2.3 先进封装：为什么成了核心？

2.4 光互连：为什么是终极方向？

2.5 AI Agent：为什么是必然？

2.6 多模态：物理上为什么难？

2.7 物理 AI（机器人）：最终形态

第三层：汇总 — 从物理到投资

物理约束 → 技术方向 → 投资机会

确定性排序

跨市场投资地图

第四层：什么情况说明判断错了？

总结

相关文章

AI 全产业链生态地图

为什么单芯片功率天花板约 1000-1500W

NVIDIA Rubin 架构成本拆解：从摩根士丹利研报到第一性原理分析