苹果的AI团队给大家带来了一个名叫LiTo的大模型,它最牛的地方在于,只看一张平面照片就能生成逼真的3D物体。科技媒体9to5Mac报道说,这个方法以前可是个大难题,传统方法需要从好几个角度拍照片才能重建3D模型。现在有了LiTo,咱们用手机随便拍个东西,它就能帮你还原出从各个角度看的样子,而且反射、高光这些光影效果都特别真实。 这个技术的关键在于一个叫潜在空间(Latent Space)的东西。说白了就是把复杂的数据压缩成一个个数学向量,省得电脑干那些重复的体力活。LiTo就像一个聪明的压缩包,它不用死记硬背每一个细节,而是把物体的形状和光线怎么跟表面互动的这些规律都给记住了。具体怎么干活呢?编码器先把图像的结构和外观信息变成一串精简的代码,解码器再根据这些代码把3D物体给还原出来。这样一来,不管光线怎么变、角度怎么转,模型都能完美还原出像镜面高光和菲涅尔反射这样的高级效果。 为了弄出这个模型,苹果的人给系统喂了成千上万的3D物体训练数据,这些物体都是在150个不同的角度和3种光照下渲染出来的。系统一边不断抽取小样本一边训练解码器,让它能在不同的光线和视角下都能还原出完整的对象。最后的结果就是,只要看一张照片,LiTo就能猜出这个物体在三维空间里是什么样的。 官方测试显示,LiTo在多视角光影还原度上比现有的TRELLIS模型要强多了。如果你想了解更多细节,可以去看他们发在arxiv上的论文:LiTo: Surface Light Field Tokenizationarxiv 论文 LiTo: Surface Light Field Tokenization。