这项由上海交通大学与字节跳动联合发起、并有麻省理工学院、清华大学等多家机构参与的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.03596v1。研究团队构建了一个名为Workspace-Bench的基准测试体系,专门用来评估A ...
为了解决这个问题,研究团队专门开发了一个叫做CogViT的全新视觉编码器。所谓"视觉编码器",可以理解成AI的"眼睛处理中枢"——负责把看到的图像转化为AI能理解的信息。CogViT的特别之处在于,它不仅擅长认出"这是什么",还擅长理解"在哪里"和" ...