🤖 AI 科技

从物理层推演 AI 未来

HBM光互连先进封装推理芯片

好的,从物理定律出发,用第一性原理推演 AI 的未来。


从物理层推演 AI 未来

第零层:为什么是现在?

AI 发展的根本驱动力是物理约束的变化。

过去 60 年,计算的基本物理一直在变慢:

  • 摩尔定律变慢(晶体管缩小越来越难)
  • 登纳德缩放定律 2006 年失效(频率不能再提高)
  • 内存墙(内存速度远慢于计算速度)

AI 打破了一个关键瓶颈:用大量简单计算替代复杂逻辑。

本质上,AI 把「程序员写规则」变成了「数据 + 梯度找规则」。这件事在物理上可行,是因为:

  • 并行计算比串行计算更接近物理极限
  • 矩阵乘法可以用专用硬件极致优化
  • 训练可以容忍低精度(FP8/FP4/INT4)

所以 AI 的爆发是计算物理演进到一定阶段的必然。


第一层:计算的物理极限

基本物理约束

兰道尔原理:每擦除 1 bit 信息,最小耗能 = kT·ln2 ≈ 2.87×10⁻²¹ J(室温)

现代 GPU 实际每 FLOP 能耗:
- 2020 年 H100:约 10⁻⁹ J/FLOP
- 物理极限:约 10⁻²¹ J/FLOP

差距 = 10¹² 倍(12 个数量级)

结论:计算效率还有巨大提升空间,
但提升路径不是无限制缩小晶体管,
而是改变计算方式本身。

三个硬约束决定 AI 硬件演进方向

约束 物理本质 后果
功耗墙 芯片散热受限于面积和冷却方式 单芯片功率天花板约 1000-1500W 详见→
内存墙 数据搬运能耗远大于计算 必须减少数据移动
互连墙 信号传播速度受光速限制 大规模系统通信延迟不可消除

这三个约束不是工程问题,是物理定律。所有未来趋势都从这三个约束推导出来。


第二层:从约束推演硬件演进

2.1 GPU 架构:为什么长这样?

第一性推理:

问题:单芯片功耗上限 ~1000W
 ↓
只能增加并行度,不能增加频率
 ↓
需要大量简单核心,而非少量复杂核心
 ↓
核心之间需要高效通信
 ↓
→ Tensor Core 架构(矩阵计算专用单元)
→ 片上网络(NVLink/NVSwitch)
→ 大容量片上 SRAM(减少访存)

GPU 架构演进的必然方向:

代际 变化 物理驱动
Volta (2017) 引入 Tensor Core 矩阵乘法专用,比通用 ALU 能效高 10x
Hopper (2022) FP8 + Transformer Engine 低精度容忍 → 能效再提升
Blackwell (2024) 双 die 封装 单 die 面积受限 → 合并两个 die
Rubin (2026) 推理专用优化 推理需求 > 训练需求
下一代 存算一体 / 光互连 内存墙和互连墙的终极解法

2.2 HBM:为什么内存是最大瓶颈?

第一性推理:

问题:计算速度每 2 年翻倍,内存带宽每 6 年才翻倍
 ↓
计算单元大部分时间在等数据
 ↓
必须把内存放得离计算越近越好
 ↓
→ 3D 堆叠(HBM):内存直接放在 GPU 上面
→ 更宽的总线(HBM3E:每栈 1024-bit)
→ 更多栈(4→6→8→12 栈)

HBM 演进趋势:

HBM2 (2016) → 256 GB/s/栈 → 4 栈 → 总带宽 1 TB/s
HBM3 (2022) → 665 GB/s/栈 → 6 栈 → 总带宽 4 TB/s
HBM3E (2024) → 1.2 TB/s/栈 → 8 栈 → 总带宽 9.6 TB/s
HBM4 (2026) → 2 TB/s/栈 → 12 栈 → 总带宽 24 TB/s

但 HBM 有一个根本物理限制:
3D 堆叠层数越多,散热越难
 ↓
堆叠高度受限 → 单栈容量受限
 ↓
必须用更多栈 → 占用更大面积 → 与 GPU 争抢封装空间
 ↓
→ 先进封装成为关键

HBM 供应链瓶颈:

环节 供应商 瓶颈程度
HBM 芯片 SK海力士/三星/美光 极高(SK海力士占 80%+ 份额)
TSV 硅通孔 同上
堆叠封装 同上 + 台积电 极高
基板 日本旗胜/信越
测试 爱德万/Teradyne

投资含义:HBM 产能是 AI 算力扩张的硬约束。谁控制 HBM 产能,谁控制 AI 算力供给。

2.3 先进封装:为什么成了核心?

第一性推理:

问题:单芯片面积受光刻机限制(reticle limit ≈ 830mm²)
 ↓
单 die 性能不够 → 必须多 die 组合
 ↓
die 之间需要超高带宽互连
 ↓
传统 PCB 走线带宽不够
 ↓
→ 2.5D/3D 封装:die 之间用硅中介层互连
→ CoWoS:台积电的 2.5D 封装技术
→ SoIC:3D 混合键合(die 直接叠 die)

封装技术演进:

传统封装(引线键合)
 ↓ 带宽:几十 GB/s
2.5D 封装(CoWoS,硅中介层)
 ↓ 带宽:几 TB/s ← 当前主流
3D 封装(SoIC,混合键合)
 ↓ 带宽:几十 TB/s ← 正在量产
3D 存算一体(逻辑+内存垂直堆叠)
 ↓ 带宽:接近片上SRAM ← 未来方向
光互连封装(CPO/LPO)
 ↓ 带宽:理论无上限 ← 终极解法

先进封装为什么是瓶颈中的瓶颈?

  1. 台积电 CoWoS 产能严重不足 — 等待期 6-12 个月
  2. 几乎没有替代品 — 三星/Intel 在追赶但良率低
  3. 扩产极难 — 需要精密设备、无尘室、长期经验积累
  4. HBM 必须 + CoWoS 才能用 — 两者绑定

投资含义:先进封装是 AI 硬件供应链里最窄的瓶颈。不是芯片设计,不是光刻,是封装。

2.4 光互连:为什么是终极方向?

第一性推理:

问题:电信号在铜线中传输
 → 高频衰减严重
 → 传输距离有限
 → 功耗随带宽线性增长
 → 物理上限约 100 Gb/s/lane
 ↓
光信号不受这些限制
 → 衰减小(可传数公里)
 → 带宽潜力大(WDM 波分复用)
 → 功耗与带宽弱相关
 ↓
→ 用光替代电做数据传输

光互连的演进路线:

当前:可插拔光模块(800G/1.6T)
 └─ 交换机外,距离 >100m
 ↓
LPO(线性直驱光模块)
 └─ 去掉 DSP 芯片,降低功耗和延迟
 ↓
CPO(共封装光学)
 └─ 光模块和交换芯片封装在一起
 └─ 功耗降低 50%,密度提高 5x
 └─ 2025-2027 开始小规模部署
 ↓
片上光互连(On-chip Optical I/O)
 └─ GPU die 之间用光通信
 └─ 解决 NVLink 铜线带宽极限
 └─ 2028-2030 可能出现
 ↓
片内光计算(Optical Computing)
 └─ 用光做矩阵乘法
 └─ 理论能效比电子计算高 1000x
 └─ 2030+ 远期方向

光互连供应链瓶颈:

环节 A股相关公司 瓶颈程度
激光器(VCSEL/DFB) 源杰科技/长光华芯 极高
硅光芯片 中际旭创/新易盛(设计)
光引擎 天孚通信/中际旭创 极高
TIA/Driver 芯片 几乎全进口 极高
光纤连接器 太辰光/藤仓

2.5 AI Agent:为什么是必然?

第一性推理:

问题:大模型只能回答问题,不能做事
 ↓
AI 的价值 = 理解力 × 执行力
当前:理解力 ≈ 80%,执行力 ≈ 5%
 ↓
必须补上执行力
 ↓
→ Agent = LLM + 工具调用 + 记忆 + 规划
 ↓
Agent 需要什么硬件?
 → 更低延迟(实时交互)
 → 更强推理能力(规划/判断)
 → 更多内存(长上下文/记忆)
 → 更低功耗(边缘部署)

Agent 对硬件的影响:

Agent 需求 硬件含义
实时响应 推理延迟 < 100ms → 需要低延迟推理芯片
长记忆 上下文 1M+ tokens → 需要超大 HBM 容量
多步规划 KV Cache 极大 → 需要存算一体或更大片上 SRAM
大量并发 同时服务百万用户 → 需要推理集群 + 高速互连
边缘部署 手机/机器人端 → 需要低功耗推理芯片(NPU)

推理需求将远超训练需求:

训练:1 个大模型训练一次
推理:1 个大模型服务数十亿用户,每天推理数十亿次

推理/训练算力比:
2024年 ≈ 2:1
2026年 ≈ 5:1
2028年 ≈ 10:1

推理芯片可能是下一个大机会

2.6 多模态:物理上为什么难?

第一性推理:

问题:不同模态的数据速率差异巨大
 ↓
文本:1 token ≈ 4 bytes
图像:1 张图 ≈ 1000 tokens ≈ 4 KB
视频:1 秒视频 ≈ 30 帧 ≈ 120 KB
音频:1 秒音频 ≈ 16 KB

多模态 = 同时处理这些不同速率的数据
 ↓
→ 内存需求爆炸(同时缓存多种模态)
→ 互连需求爆炸(模态之间需要交叉注意力)
→ 推理延迟要求不一致(文本慢一点没事,视频必须实时)

多模态对硬件的影响:

需求 硬件影响
视频理解 KV Cache 扩大 10-100x → HBM 需求暴增
实时生成 推理吞吐量要求极高 → 推理专用芯片
模态融合 跨模态注意力 → 互连带宽需求暴增
端侧部署 手机/AR 眼镜 → 超低功耗 NPU

2.7 物理 AI(机器人):最终形态

第一性推理:

问题:AI 只活在数字世界,无法影响物理世界
 ↓
AI 的终极价值 = 在物理世界中行动
 ↓
→ 物理 AI = 感知 + 决策 + 执行
 ↓
需要的硬件:
→ 感知:传感器(视觉/触觉/力觉/惯性)
→ 决策:端侧推理芯片(低延迟、低功耗)
→ 执行:电机驱动 + 运动控制

物理 AI 的独特硬件约束:

约束 原因 硬件方向
功耗 电池容量有限 端侧 NPU(< 10W)
延迟 实时控制 < 1ms 存算一体 / 边缘推理
鲁棒性 物理世界不可预测 冗余传感器 + 安全芯片
成本 要大规模部署 成本敏感 → 国产替代机会

物理 AI 供应链:

机器人 = 感知 + 决策 + 执行

感知层:
├── 视觉传感器 → 奥比中光/舜宇光学
├── 力/触觉传感器 → 宇立仪器/柯力传感
└── 惯性传感器 → 敏芯股份/士兰微

决策层:
├── 端侧 AI 芯片 → 地平线/寒武纪
├── MCU → 兆易创新/芯海科技
└── 通信模块 → 移远通信/广和通

执行层(核心瓶颈):
├── ⭐ 精密减速器 → 绿的谐波/双环传动(供应商极少)
├── ⭐ 伺服电机 → 汇川技术/禾川科技
├── ⭐ 编码器 → 海德汉(进口)/奥普特
└── 丝杠/导轨 → 贝斯特/恒立液压

执行层是物理 AI 最大的瓶颈:
- 减速器供应商全球 < 10 家
- 验证周期 2-3 年
- 精度要求极高
- 扩产需要特种设备
→ 典型的 Serenity 瓶颈特征

第三层:汇总 — 从物理到投资

物理约束 → 技术方向 → 投资机会

物理约束 必然的技术方向 投资机会(按确定性排序)
功耗墙 低精度计算 + 专用芯片 GPU/AI芯片(NVDA/AMD/海光)
内存墙 HBM + 存算一体 + 大容量SRAM HBM供应链 + 先进封装
互连墙 光互连(CPO→片上光I/O) 光模块/硅光/激光器
封装面积 2.5D/3D 先进封装 CoWoS产能/封装设备
推理需求 推理专用芯片 + 边缘部署 推理芯片/端侧NPU
物理世界 传感器 + 执行器 机器人减速器/电机/触觉

确定性排序

最高确定性(物理定律驱动,必然发生):
├── HBM 需求持续增长(内存墙的必然解)
├── 先进封装需求持续增长(面积约束的必然解)
├── 光互连逐步替代铜互连(带宽约束的必然解)
└── 推理算力需求超过训练(规模效应的必然结果)

高确定性(技术趋势明确):
├── AI Agent 成为主流交互方式
├── 多模态融合成为标配
├── 端侧 AI 芯片需求爆发
└── 推理专用芯片出现

中确定性(方向对,时间不确定):
├── 存算一体大规模商用
├── 物理 AI(机器人)大规模部署
├── 片内光计算
└── 通用人工智能(AGI)

跨市场投资地图

层级 美股 A股 港股
AI芯片 NVDA/AMD/AVGO 海光/寒武纪 -
HBM MU - -
先进封装 TSMC 长电/通富 中芯国际
光互连 LRCX/COHR 中际旭创/天孚/新易盛 -
设备 AMAT/LAM/KLAC/ASML 中微/北方华创/拓荆 -
材料 - 彤程/安集/沪硅 -
机器人执行 - 绿的谐波/汇川/双环 -
端侧AI QCOM/MRVL 地平线/瑞芯微 -

第四层:什么情况说明判断错了?

假设 如果错了会怎样
AI 需求持续增长 大厂资本开支削减 → 整条链崩塌
HBM 是必然路径 新型内存架构突破(如存算一体成熟)→ HBM 被绕开
光互连会替代铜 铜互连技术突破(224G PAM4 延续)→ 光互连推迟
先进封装是瓶颈 新封装技术突破 → 产能释放,稀缺性消失
机器人会爆发 技术路线受阻/成本降不下来 → 物理 AI 推迟 5-10 年

总结

从物理层推演,AI 硬件演进的底层逻辑是:

 功耗墙 + 内存墙 + 互连墙 = 三个物理硬约束

 所有技术方向都是这三个约束的必然解:
 ├─ 功耗墙 → 专用芯片 / 低精度计算
 ├─ 内存墙 → HBM / 存算一体
 └─ 互连墙 → 光互连 / 先进封装

 当前最窄的瓶颈:先进封装 > HBM > 光互连激光器

 下一个范式转换:
 从"电计算+电互连" → "电计算+光互连" → "光计算+光互连"

 AI 的终极形态:
 数字世界:AI Agent + 多模态(推理需求主导)
 物理世界:物理 AI / 机器人(执行层是瓶颈)

这是研究框架,不构成投资建议。交易决策由你自己决定。

相关文章

AI 全产业链生态地图

从能源、半导体、基础设施、数据要素、模型平台、应用到配套服务的 AI 产业链生态地图,涵盖核心环节、代表企业与技术演进路线。

为什么单芯片功率天花板约 1000-1500W

从热力学和材料物理出发,推导单芯片功率的物理极限,以及突破路径。

NVIDIA Rubin 架构成本拆解:从摩根士丹利研报到第一性原理分析

摩根士丹利拆解 NVIDIA Rubin 机柜 BOM,GPU 占比从 65% 降至 51%,内存成本暴涨 435%。从第一性原理分析各组件成本变化的物理本质与未来趋势。