好的,从物理定律出发,用第一性原理推演 AI 的未来。
从物理层推演 AI 未来
第零层:为什么是现在?
AI 发展的根本驱动力是物理约束的变化。
过去 60 年,计算的基本物理一直在变慢:
- 摩尔定律变慢(晶体管缩小越来越难)
- 登纳德缩放定律 2006 年失效(频率不能再提高)
- 内存墙(内存速度远慢于计算速度)
但 AI 打破了一个关键瓶颈:用大量简单计算替代复杂逻辑。
本质上,AI 把「程序员写规则」变成了「数据 + 梯度找规则」。这件事在物理上可行,是因为:
- 并行计算比串行计算更接近物理极限
- 矩阵乘法可以用专用硬件极致优化
- 训练可以容忍低精度(FP8/FP4/INT4)
所以 AI 的爆发是计算物理演进到一定阶段的必然。
第一层:计算的物理极限
基本物理约束
兰道尔原理:每擦除 1 bit 信息,最小耗能 = kT·ln2 ≈ 2.87×10⁻²¹ J(室温)
现代 GPU 实际每 FLOP 能耗:
- 2020 年 H100:约 10⁻⁹ J/FLOP
- 物理极限:约 10⁻²¹ J/FLOP
差距 = 10¹² 倍(12 个数量级)
结论:计算效率还有巨大提升空间,
但提升路径不是无限制缩小晶体管,
而是改变计算方式本身。
三个硬约束决定 AI 硬件演进方向
| 约束 | 物理本质 | 后果 |
|---|---|---|
| 功耗墙 | 芯片散热受限于面积和冷却方式 | 单芯片功率天花板约 1000-1500W 详见→ |
| 内存墙 | 数据搬运能耗远大于计算 | 必须减少数据移动 |
| 互连墙 | 信号传播速度受光速限制 | 大规模系统通信延迟不可消除 |
这三个约束不是工程问题,是物理定律。所有未来趋势都从这三个约束推导出来。
第二层:从约束推演硬件演进
2.1 GPU 架构:为什么长这样?
第一性推理:
问题:单芯片功耗上限 ~1000W
↓
只能增加并行度,不能增加频率
↓
需要大量简单核心,而非少量复杂核心
↓
核心之间需要高效通信
↓
→ Tensor Core 架构(矩阵计算专用单元)
→ 片上网络(NVLink/NVSwitch)
→ 大容量片上 SRAM(减少访存)
GPU 架构演进的必然方向:
| 代际 | 变化 | 物理驱动 |
|---|---|---|
| Volta (2017) | 引入 Tensor Core | 矩阵乘法专用,比通用 ALU 能效高 10x |
| Hopper (2022) | FP8 + Transformer Engine | 低精度容忍 → 能效再提升 |
| Blackwell (2024) | 双 die 封装 | 单 die 面积受限 → 合并两个 die |
| Rubin (2026) | 推理专用优化 | 推理需求 > 训练需求 |
| 下一代 | 存算一体 / 光互连 | 内存墙和互连墙的终极解法 |
2.2 HBM:为什么内存是最大瓶颈?
第一性推理:
问题:计算速度每 2 年翻倍,内存带宽每 6 年才翻倍
↓
计算单元大部分时间在等数据
↓
必须把内存放得离计算越近越好
↓
→ 3D 堆叠(HBM):内存直接放在 GPU 上面
→ 更宽的总线(HBM3E:每栈 1024-bit)
→ 更多栈(4→6→8→12 栈)
HBM 演进趋势:
HBM2 (2016) → 256 GB/s/栈 → 4 栈 → 总带宽 1 TB/s
HBM3 (2022) → 665 GB/s/栈 → 6 栈 → 总带宽 4 TB/s
HBM3E (2024) → 1.2 TB/s/栈 → 8 栈 → 总带宽 9.6 TB/s
HBM4 (2026) → 2 TB/s/栈 → 12 栈 → 总带宽 24 TB/s
但 HBM 有一个根本物理限制:
3D 堆叠层数越多,散热越难
↓
堆叠高度受限 → 单栈容量受限
↓
必须用更多栈 → 占用更大面积 → 与 GPU 争抢封装空间
↓
→ 先进封装成为关键
HBM 供应链瓶颈:
| 环节 | 供应商 | 瓶颈程度 |
|---|---|---|
| HBM 芯片 | SK海力士/三星/美光 | 极高(SK海力士占 80%+ 份额) |
| TSV 硅通孔 | 同上 | 高 |
| 堆叠封装 | 同上 + 台积电 | 极高 |
| 基板 | 日本旗胜/信越 | 高 |
| 测试 | 爱德万/Teradyne | 中 |
投资含义:HBM 产能是 AI 算力扩张的硬约束。谁控制 HBM 产能,谁控制 AI 算力供给。
2.3 先进封装:为什么成了核心?
第一性推理:
问题:单芯片面积受光刻机限制(reticle limit ≈ 830mm²)
↓
单 die 性能不够 → 必须多 die 组合
↓
die 之间需要超高带宽互连
↓
传统 PCB 走线带宽不够
↓
→ 2.5D/3D 封装:die 之间用硅中介层互连
→ CoWoS:台积电的 2.5D 封装技术
→ SoIC:3D 混合键合(die 直接叠 die)
封装技术演进:
传统封装(引线键合)
↓ 带宽:几十 GB/s
2.5D 封装(CoWoS,硅中介层)
↓ 带宽:几 TB/s ← 当前主流
3D 封装(SoIC,混合键合)
↓ 带宽:几十 TB/s ← 正在量产
3D 存算一体(逻辑+内存垂直堆叠)
↓ 带宽:接近片上SRAM ← 未来方向
光互连封装(CPO/LPO)
↓ 带宽:理论无上限 ← 终极解法
先进封装为什么是瓶颈中的瓶颈?
- 台积电 CoWoS 产能严重不足 — 等待期 6-12 个月
- 几乎没有替代品 — 三星/Intel 在追赶但良率低
- 扩产极难 — 需要精密设备、无尘室、长期经验积累
- HBM 必须 + CoWoS 才能用 — 两者绑定
投资含义:先进封装是 AI 硬件供应链里最窄的瓶颈。不是芯片设计,不是光刻,是封装。
2.4 光互连:为什么是终极方向?
第一性推理:
问题:电信号在铜线中传输
→ 高频衰减严重
→ 传输距离有限
→ 功耗随带宽线性增长
→ 物理上限约 100 Gb/s/lane
↓
光信号不受这些限制
→ 衰减小(可传数公里)
→ 带宽潜力大(WDM 波分复用)
→ 功耗与带宽弱相关
↓
→ 用光替代电做数据传输
光互连的演进路线:
当前:可插拔光模块(800G/1.6T)
└─ 交换机外,距离 >100m
↓
LPO(线性直驱光模块)
└─ 去掉 DSP 芯片,降低功耗和延迟
↓
CPO(共封装光学)
└─ 光模块和交换芯片封装在一起
└─ 功耗降低 50%,密度提高 5x
└─ 2025-2027 开始小规模部署
↓
片上光互连(On-chip Optical I/O)
└─ GPU die 之间用光通信
└─ 解决 NVLink 铜线带宽极限
└─ 2028-2030 可能出现
↓
片内光计算(Optical Computing)
└─ 用光做矩阵乘法
└─ 理论能效比电子计算高 1000x
└─ 2030+ 远期方向
光互连供应链瓶颈:
| 环节 | A股相关公司 | 瓶颈程度 |
|---|---|---|
| 激光器(VCSEL/DFB) | 源杰科技/长光华芯 | 极高 |
| 硅光芯片 | 中际旭创/新易盛(设计) | 高 |
| 光引擎 | 天孚通信/中际旭创 | 极高 |
| TIA/Driver 芯片 | 几乎全进口 | 极高 |
| 光纤连接器 | 太辰光/藤仓 | 中 |
2.5 AI Agent:为什么是必然?
第一性推理:
问题:大模型只能回答问题,不能做事
↓
AI 的价值 = 理解力 × 执行力
当前:理解力 ≈ 80%,执行力 ≈ 5%
↓
必须补上执行力
↓
→ Agent = LLM + 工具调用 + 记忆 + 规划
↓
Agent 需要什么硬件?
→ 更低延迟(实时交互)
→ 更强推理能力(规划/判断)
→ 更多内存(长上下文/记忆)
→ 更低功耗(边缘部署)
Agent 对硬件的影响:
| Agent 需求 | 硬件含义 |
|---|---|
| 实时响应 | 推理延迟 < 100ms → 需要低延迟推理芯片 |
| 长记忆 | 上下文 1M+ tokens → 需要超大 HBM 容量 |
| 多步规划 | KV Cache 极大 → 需要存算一体或更大片上 SRAM |
| 大量并发 | 同时服务百万用户 → 需要推理集群 + 高速互连 |
| 边缘部署 | 手机/机器人端 → 需要低功耗推理芯片(NPU) |
推理需求将远超训练需求:
训练:1 个大模型训练一次
推理:1 个大模型服务数十亿用户,每天推理数十亿次
推理/训练算力比:
2024年 ≈ 2:1
2026年 ≈ 5:1
2028年 ≈ 10:1
推理芯片可能是下一个大机会
2.6 多模态:物理上为什么难?
第一性推理:
问题:不同模态的数据速率差异巨大
↓
文本:1 token ≈ 4 bytes
图像:1 张图 ≈ 1000 tokens ≈ 4 KB
视频:1 秒视频 ≈ 30 帧 ≈ 120 KB
音频:1 秒音频 ≈ 16 KB
多模态 = 同时处理这些不同速率的数据
↓
→ 内存需求爆炸(同时缓存多种模态)
→ 互连需求爆炸(模态之间需要交叉注意力)
→ 推理延迟要求不一致(文本慢一点没事,视频必须实时)
多模态对硬件的影响:
| 需求 | 硬件影响 |
|---|---|
| 视频理解 | KV Cache 扩大 10-100x → HBM 需求暴增 |
| 实时生成 | 推理吞吐量要求极高 → 推理专用芯片 |
| 模态融合 | 跨模态注意力 → 互连带宽需求暴增 |
| 端侧部署 | 手机/AR 眼镜 → 超低功耗 NPU |
2.7 物理 AI(机器人):最终形态
第一性推理:
问题:AI 只活在数字世界,无法影响物理世界
↓
AI 的终极价值 = 在物理世界中行动
↓
→ 物理 AI = 感知 + 决策 + 执行
↓
需要的硬件:
→ 感知:传感器(视觉/触觉/力觉/惯性)
→ 决策:端侧推理芯片(低延迟、低功耗)
→ 执行:电机驱动 + 运动控制
物理 AI 的独特硬件约束:
| 约束 | 原因 | 硬件方向 |
|---|---|---|
| 功耗 | 电池容量有限 | 端侧 NPU(< 10W) |
| 延迟 | 实时控制 < 1ms | 存算一体 / 边缘推理 |
| 鲁棒性 | 物理世界不可预测 | 冗余传感器 + 安全芯片 |
| 成本 | 要大规模部署 | 成本敏感 → 国产替代机会 |
物理 AI 供应链:
机器人 = 感知 + 决策 + 执行
感知层:
├── 视觉传感器 → 奥比中光/舜宇光学
├── 力/触觉传感器 → 宇立仪器/柯力传感
└── 惯性传感器 → 敏芯股份/士兰微
决策层:
├── 端侧 AI 芯片 → 地平线/寒武纪
├── MCU → 兆易创新/芯海科技
└── 通信模块 → 移远通信/广和通
执行层(核心瓶颈):
├── ⭐ 精密减速器 → 绿的谐波/双环传动(供应商极少)
├── ⭐ 伺服电机 → 汇川技术/禾川科技
├── ⭐ 编码器 → 海德汉(进口)/奥普特
└── 丝杠/导轨 → 贝斯特/恒立液压
执行层是物理 AI 最大的瓶颈:
- 减速器供应商全球 < 10 家
- 验证周期 2-3 年
- 精度要求极高
- 扩产需要特种设备
→ 典型的 Serenity 瓶颈特征
第三层:汇总 — 从物理到投资
物理约束 → 技术方向 → 投资机会
| 物理约束 | 必然的技术方向 | 投资机会(按确定性排序) |
|---|---|---|
| 功耗墙 | 低精度计算 + 专用芯片 | GPU/AI芯片(NVDA/AMD/海光) |
| 内存墙 | HBM + 存算一体 + 大容量SRAM | HBM供应链 + 先进封装 |
| 互连墙 | 光互连(CPO→片上光I/O) | 光模块/硅光/激光器 |
| 封装面积 | 2.5D/3D 先进封装 | CoWoS产能/封装设备 |
| 推理需求 | 推理专用芯片 + 边缘部署 | 推理芯片/端侧NPU |
| 物理世界 | 传感器 + 执行器 | 机器人减速器/电机/触觉 |
确定性排序
最高确定性(物理定律驱动,必然发生):
├── HBM 需求持续增长(内存墙的必然解)
├── 先进封装需求持续增长(面积约束的必然解)
├── 光互连逐步替代铜互连(带宽约束的必然解)
└── 推理算力需求超过训练(规模效应的必然结果)
高确定性(技术趋势明确):
├── AI Agent 成为主流交互方式
├── 多模态融合成为标配
├── 端侧 AI 芯片需求爆发
└── 推理专用芯片出现
中确定性(方向对,时间不确定):
├── 存算一体大规模商用
├── 物理 AI(机器人)大规模部署
├── 片内光计算
└── 通用人工智能(AGI)
跨市场投资地图
| 层级 | 美股 | A股 | 港股 |
|---|---|---|---|
| AI芯片 | NVDA/AMD/AVGO | 海光/寒武纪 | - |
| HBM | MU | - | - |
| 先进封装 | TSMC | 长电/通富 | 中芯国际 |
| 光互连 | LRCX/COHR | 中际旭创/天孚/新易盛 | - |
| 设备 | AMAT/LAM/KLAC/ASML | 中微/北方华创/拓荆 | - |
| 材料 | - | 彤程/安集/沪硅 | - |
| 机器人执行 | - | 绿的谐波/汇川/双环 | - |
| 端侧AI | QCOM/MRVL | 地平线/瑞芯微 | - |
第四层:什么情况说明判断错了?
| 假设 | 如果错了会怎样 |
|---|---|
| AI 需求持续增长 | 大厂资本开支削减 → 整条链崩塌 |
| HBM 是必然路径 | 新型内存架构突破(如存算一体成熟)→ HBM 被绕开 |
| 光互连会替代铜 | 铜互连技术突破(224G PAM4 延续)→ 光互连推迟 |
| 先进封装是瓶颈 | 新封装技术突破 → 产能释放,稀缺性消失 |
| 机器人会爆发 | 技术路线受阻/成本降不下来 → 物理 AI 推迟 5-10 年 |
总结
从物理层推演,AI 硬件演进的底层逻辑是:
功耗墙 + 内存墙 + 互连墙 = 三个物理硬约束
所有技术方向都是这三个约束的必然解:
├─ 功耗墙 → 专用芯片 / 低精度计算
├─ 内存墙 → HBM / 存算一体
└─ 互连墙 → 光互连 / 先进封装
当前最窄的瓶颈:先进封装 > HBM > 光互连激光器
下一个范式转换:
从"电计算+电互连" → "电计算+光互连" → "光计算+光互连"
AI 的终极形态:
数字世界:AI Agent + 多模态(推理需求主导)
物理世界:物理 AI / 机器人(执行层是瓶颈)
这是研究框架,不构成投资建议。交易决策由你自己决定。