ai research, architecture,

STAR 模型架构:Liquid AI 的模型架构自动合成新范式

Unbug By Unbug Follow Mar 02, 2026 · 1 min read
STAR 模型架构:Liquid AI 的模型架构自动合成新范式
Share this

简介:Transformer 的统治何时结束?

想象一下,如果建筑行业还在靠手工一块砖一块砖地盖房子,那会是什么样子?

在 AI 领域,我们过去 8 年就是这么干的——自从 2017 年 “Attention Is All You Need” 论文发布以来,Transformer 架构就像一尊不可撼动的神像,所有人都在它的基础上修修补补,却没人敢质疑它的根基。

但是,Transformer 有个致命的毛病:它太”贪心”了

自注意力机制的计算复杂度是 O(n²),这意味着处理的文本越长,消耗的资源就呈指数级增长。这就好比你要读一本书,每读一个字都要把前面所有字再读一遍——谁受得了?

好消息来了!MIT 孵化的创业公司 Liquid AI 刚刚扔出了一颗重磅炸弹:STAR(Synthesis of Tailored Architectures)

这玩意儿能自动生成和优化 AI 模型架构,就像给建筑行业配上了自动化施工队。而且,它生成的模型性能不输 Transformer,缓存大小却能减少 90%

STAR 架构概览

背景:Transformer 的”肥胖症”

让我们先看看 Transformer 到底有多”胖”。

Jennifer Chayes,加州大学伯克利分校计算机、数据科学与社会学院院长,说过一句大实话:”我希望看到 Transformer 模型的替代方案,让我们能够在不消耗如此多能源的情况下进行这种思考。”

Transformer 的问题在于:

  • 处理长文本要了老命:想让 AI 读完整本书?准备好破产吧
  • 缓存占用像个无底洞:推理时的内存占用让人头疼
  • 能源消耗堪比小型发电厂:训练一次大模型的碳排放相当于一辆汽车开一辈子

这就好比我们明明有了汽车,却还在骑牛赶路——效率太低了!

STAR:让 AI 架构自己”进化”

那么,STAR 到底是什么?它怎么解决这个问题?

简单来说,STAR 就像是一个 AI 架构的”达尔文进化论”实验室。它不依赖人类的聪明才智,而是让架构自己在虚拟环境中”进化”,适者生存。

核心玩法:基因编码 + 进化算法

STAR 的工作原理可以用三个关键词来概括:

  1. STAR 基因组:就像 DNA 一样,用分层编码技术来表示各种可能的架构设计
  2. 进化优化:通过重组、突变这些生物进化的方式来不断优化架构
  3. 多目标优化:同时考虑性能、效率、硬件兼容性,就像选运动员既要跑得快又要耐力好

最牛的是,STAR 的搜索空间超级大——注意力机制、循环网络、卷积层……各种组件随便组合,比人类设计师能想到的多得多!

理论根基:跨界融合的智慧

STAR 不是瞎编的,它的背后有扎实的理论支撑:

  • 动力系统:理解模型的动态行为,就像研究汽车的发动机怎么运转
  • 信号处理:优化信息在模型中的流动,就像优化城市的交通系统
  • 数值线性代数:确保计算效率,就像给工程师提供最好的计算工具

这种跨学科的融合,让 STAR 能探索到人类设计师根本想不到的架构设计。

STAR 进化过程

实验结果:牛逼不是吹的

光说不练假把式,让我们看看 STAR 的真实战斗力!

Liquid AI 的团队在自回归语言建模这个 Transformer 的”主场”进行了测试,结果让人惊掉下巴。

缓存效率:90% 的瘦身奇迹

  • 相比混合模型:缓存大小减少 37%
  • 相比传统 Transformer:缓存大小减少 90%

90% 是什么概念?这就好比原来你需要一个 1000 平米的仓库来存货,现在只需要 100 平米就够了!

更重要的是,性能没下降,反而还提升了

参数效率:少吃多干活

当同时优化模型质量和大小时:

  • 参数数量减少 13%
  • 标准基准测试性能反而提高

这就是传说中的”吃得少,干得多”的模范员工!

可扩展性:从小型车到重型卡车

STAR 还展示了超强的可扩展性:

  • 从 1.25 亿参数轻松扩展到 10 亿参数
  • 跟现有的 Transformer++ 和混合模型比,性能相当甚至更好
  • 但缓存需求大幅降低

这就像一个汽车平台,既能造紧凑型轿车,也能造大型 SUV,还都特别省油!

模块化设计:像搭乐高一样设计架构

STAR 的另一个超级棒的特性是模块化

这意味着什么?

  1. 发现重复模式:就像建筑设计师发现”哦,原来这种窗户设计在各种建筑里都好用”
  2. 识别最佳组合:哪些组件搭在一起效果最好,一目了然
  3. 可重用的构建块:以后设计新架构时,直接用现成的模块就行,不用从零开始

这就像给你一套超级牛的乐高积木,你想搭什么都可以,而且每个积木都经过了优化!

STAR 性能对比

影响和意义:AI 架构的工业革命

STAR 的出现,可不是小打小闹,这可能是 AI 架构设计的一场工业革命

1. 让 AI 从”耗能大户”变”绿色环保”

通过减少缓存需求和提高参数效率,STAR 能大幅降低 AI 的能源消耗。这对可持续发展太重要了——毕竟,我们不能让 AI 把地球的能源都耗光。

2. 架构设计不再是少数人的游戏

以前,设计模型架构需要顶级专家。现在,STAR 让这个过程自动化了。这就像以前只有专业摄影师才能拍好照片,现在人人都能用智能手机拍出好照片。

3. 后 Transformer 时代真的来了

研究人员说,这可能是”给机器学习和 AI 研究社区的一份受欢迎的冬季假期礼物”。

我说,这哪里是礼物,这简直是新年大礼

未来展望:STAR 的野心不止于此

Liquid AI 可不满足于只在语言建模领域玩玩。他们的目标是:

  • 计算机视觉:让图像和视频处理模型更高效
  • 语音识别:让音频处理更省电
  • 科学计算:优化物理模拟和数据分析
  • 边缘设备:让手机、智能手表这些小设备也能跑大模型

虽然 Liquid AI 还没说具体怎么商业化,但这个研究结果已经足够让人兴奋了。

结论:从手工时代到自动化时代

STAR 代表了 AI 模型架构设计的一个重大飞跃

通过把进化算法、数值编码和跨学科理论结合起来,Liquid AI 创造了一个能自动生成高效、高性能架构的框架。

当我们还在争论 Transformer 会不会继续统治时,STAR 已经悄悄地开启了一个新时代——一个 AI 架构设计从手工工艺转向自动化工程的时代。

这就像汽车刚发明时,很多人还在怀念马车的好,但历史的车轮滚滚向前,谁也挡不住。

论文链接:https://arxiv.org/pdf/2411.17800

Liquid AI 研究页面:https://www.liquid.ai/research/automated-architecture-synthesis-via-targeted-evolution

Releated