UC伯克利等团队推出高效动作Tokenizer「FAST」,训练效率跃升五倍
研究者近期提出了FAST,这是一种专为VLA模型设计的动作Tokenizer,结合了离散余弦变换(DCT)和字节对编码(BPE),显著缩短了训练时间,并提升了复杂任务的学习和执行效率,为机器人自回归Transformer训练带来了重要突破。FAST通过DCT压缩原始动作块,结合BPE进行编码,实现了动作的高效Tokenization,提高了从大规模数据预训练的迁移能力,并增强了机器人执行语言指令的能力。实验结果显示,FAST与π0 VLA结合,在1万小时的机器人数据上训练,效果与最先进的扩散VLA相当,但训练时间缩短了最多五倍。此外,研究者还发布了通用的机器人动作Tokenizer FAST+,能高效地标记各种机器人动作序列,并在DROID数据集上训练出通用策略,实现了新环境中对多种指令的泛化执行。
尽管FAST在训练效率上取得了显著进步,但当前的模型在推理速度上仍存在不足。未来,研究者计划借鉴LLM中加速离散自回归Transformer模型推理的技术,以提高VLA的推理速度。
免责声明:本答案或内容为用户上传,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 如遇侵权请及时联系本站删除。