← 返回资讯
大模型 HuggingFace Daily Papers 2026-07-01

AVTok:面向整体音视频生成的一维统一分词

AVTok:面向整体音视频生成的一维统一分词

AVTok 是音视频生成的统一分词器,采用双流 Transformer 架构结合共享编码器-解码器和模态特定查询,生成紧凑的一维潜在表示。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。