苹果的ai 团队给大家带来了一个名叫lito的大模型，它最牛的地方在于，只看一张平面照片就能生成

苹果的AI团队给大家带来了一个名叫LiTo的大模型，它最牛的地方在于，只看一张平面照片就能生成逼真的3D物体。科技媒体9to5Mac报道说，这个方法以前可是个大难题，传统方法需要从好几个角度拍照片才能重建3D模型。现在有了LiTo，咱们用手机随便拍个东西，它就能帮你还原出从各个角度看的样子，而且反射、高光这些光影效果都特别真实。这个技术的关键在于一个叫潜在空间（Latent Space）的东西。说白了就是把复杂的数据压缩成一个个数学向量，省得电脑干那些重复的体力活。LiTo就像一个聪明的压缩包，它不用死记硬背每一个细节，而是把物体的形状和光线怎么跟表面互动的这些规律都给记住了。具体怎么干活呢？编码器先把图像的结构和外观信息变成一串精简的代码，解码器再根据这些代码把3D物体给还原出来。这样一来，不管光线怎么变、角度怎么转，模型都能完美还原出像镜面高光和菲涅尔反射这样的高级效果。为了弄出这个模型，苹果的人给系统喂了成千上万的3D物体训练数据，这些物体都是在150个不同的角度和3种光照下渲染出来的。系统一边不断抽取小样本一边训练解码器，让它能在不同的光线和视角下都能还原出完整的对象。最后的结果就是，只要看一张照片，LiTo就能猜出这个物体在三维空间里是什么样的。官方测试显示，LiTo在多视角光影还原度上比现有的TRELLIS模型要强多了。如果你想了解更多细节，可以去看他们发在arxiv上的论文：LiTo: Surface Light Field Tokenizationarxiv 论文 LiTo: Surface Light Field Tokenization。