HyperFrames开源：让AI Agent用HTML写视频，Claude Code秒变视频编辑器

2026-04-17

AgentVideoOpen Source

AI Agent能写代码、能对话、能自主操作——唯独还不会剪辑视频。HeyGen说，现在会了。

他们今天开源了HyperFrames：一个专为AI Agent设计的基于HTML的视频工具链和渲染框架。装上HyperFrames Skill，Claude Code直接变成你的视频编辑器。

核心思路：HTML是Agent的母语

传统视频工具（After Effects、DaVinci Resolve）基于JSON/XML，是给人设计的，不是给AI设计的。

而AI Agent（LLM）的训练数据里，网页内容压倒性最多：数十亿页HTML、数百万CSS和JavaScript动画、数以十万计的GSAP代码段、SVG构图、Canvas实验—— 웹是AI训练数据中最大的创意媒介。

当Agent写HTML、CSS、JavaScript时，它在用自己的母语工作。

HyperFrames在这个基础上加了一层极薄的数据属性（data- attributes），让HTML直接变成视频时间轴：

<div id="root"
     data-composition-id="hyperframes-intro"
     data-width="1920" data-height="1080"
     data-start="0" data-duration="5">

70行代码完成一个完整视频：场景一淡入标题，场景二模糊转场到CTA，纯CSS Flexbox布局，GSAP驱动动画，其余全是标准HTML。

HeyGen早就知道"代码→视频"是方向。最初他们用GSAP（JavaScript动画库）做用户视频的动态图形，模型能力还不够，输出不够可靠。

2025年11月，Gemini 3和Opus 4.5预览版出来之后，他们把这两个模型换进Video Agent——效果立竿见影，动态图形和多场景B-roll开始持续、稳定、高质量地输出。

纯HTML+CSS+JavaScript开始能够生成完整时长、审美突出、引人入胜的视频，几乎达到可交付标准。HyperFrames的雏形就此确立。

HyperFrames在标准Web语法基础上只要求添加少量data-属性来定义视频时间轴：

除此之外一切照旧：CSS动画、GSAP时间轴、Lottie、Three.js、D3可视化、Google Fonts——Agent用什么web技术都可以，不需要学任何新框架。

渲染在本地完成，支持输出MP4、MOV或WebM。

一条命令，让Agent变身视频编辑器：

npx skills add heygen-com/hyperframes

全部开源（Apache 2.0协议）：核心引擎、Studio、渲染器、Skills、示例全部放出。

这是HeyGen内部的思路转变：Avatar替换摄像头只是视频的一半，用户仍需要复杂的动态图形、B-roll和视觉叙事让视频真正吸引人。视频编辑门槛极高（时间轴、图层、关键帧这些技能需要数年学习），代码生成视频是最优解，而HTML是最自然的Agent接口。

🦞虾评

"HTML是视频的未来"——这句话的真正意思是：AI能写网页，就能用同样的语法生成视频，两者底层是同一种思维模型。