三年前,元宇宙大热,但很快便偃旗息鼓,留下了一个“概念大于落地”的幻影。
然而随着Vision Pro面世,其令人震撼的虚拟现实体验,让国外投资人评价道,Vision Pro或将使元宇宙“再次伟大”。
如果说Vision Pro等XR交互设备的核心理念是将数字内容无缝融入真实世界,让用户处在当下并与他人保持连接,那在这个美好愿景之上,仍难逃一个核心命题:3D内容稀缺。
当前,三维重建领域普遍采用的是Mesh技术,一些企业虽短暂青睐过谷歌在2020年提出的NeRF(神经辐射场)技术(因其展示了人工智能在三维重建领域的曙光),但因没有解决3D内容不够真实、高生产门槛、高生产成本等问题,更为广泛的XR体验始终没有走入寻常百姓家。
大规模便宜且逼真的三维镜像,或许正是AI和XR结合时的missing link(缺环)。
一家坐落在苏州工业园区的AI创企——知天下(苏州)人工智能科技有限公司(以下简称知天下),想要试着补齐这一环。
知天下走的技术路线,正是近期在计算机视觉领域大火的3D Gaussian Splatting(3D高斯溅射)技术。
去年7月份,法国科研机构Inria和德国马普所联合发表了一篇论文,详细介绍3D高斯溅射技术,这项技术使得大规模生成精细化3D模型成为可能。论文一经发出,便在计算机视觉领域引起极高关注。
“这项技术具有划时代意义”,知天下创始人兼CEO宋宽博士激动地说,“高斯溅射将使三维点云算法从‘小众’变成‘大杀器’”。
除了由衷的开心之余,几乎没有任何犹豫,宋宽当即做了一个决定:集结全公司的研发力量,All in高斯溅射。
“点云”算法是高斯溅射的核心技术之一。巧合的是,在过去的四年时间里,知天下团队一直在和“点云”算法打交道。
从2021年起,知天下团队在首席科学家魏泽强博士带领下,连续三年揽下国际人工智能顶会(ICCV、ECCV、CVPR)在大规模点云和光场算法方向的大赛冠军。
在那篇重磅论文面世的九个月后,知天下推出了一款基于高斯溅射的三维重建小程序,于上周五正式对外公测。
这是国内市场上*个基于高斯溅射技术、公开可用的AI三维重建工具。在这个工具中,每个人都可以用手机或者无人机拍摄的二维照片,自动重建高保真的三维场景。
宋宽认为,高斯溅射这门新兴技术,将催生出下一个平台级机会。
但当前,他很清醒的认识到,提升人工智能算法能力,完成一个又一个美轮美奂的实物3D模型,把三维重建的数据模型做起来才是前提。
“为了不浪费这个机遇,我们平台产出的三维模型要尽可能做到业界最惊艳”。
1.补上一个missing link
去年夏秋之交,一枚“重磅炸弹”投向计算机视觉行业。
法国科研机构Inria和德国马普所发布了一篇名为“3D Gaussian Splatting for Real-Time Radiance Field Rendering”的论文,谈论的正是3D高斯溅射技术。
在介绍3D高斯溅射技术特点时,我们不妨先来做个设想:
将自己视为一名艺术家。你不是在普通画布上绘画,而是在三维的空间中进行创作。你为场景中的每个对象绘制彩色的泡泡,生成一堆泡沫。这堆泡沫被称之为高斯溅射的“点云”。
再进一步,你不只是使用点,也在画布上混合颜色,让画面更平滑、更真实。这就是“泼溅”。
这就是3D高斯泼溅背后的想法:它不只使用点, 而是使用柔和地混合在一起的“泼溅”。每个splat就像一个温柔的泡泡,有自己的颜色并且可以是透明的。
不同于传统的点云可视化方法,高斯分布使得空间中的“连续可视化”成为可能,并赋予其深度和自然的外观,使场景看起来更加真实,而不是看起来离散和像素化。
如果对其技术特点进行概括,可总结为:高品质(超越NeRF和传统Mesh);实时渲染(超过100fps); 训练时间短(比NeRF和Mesh降低一个数量级)。
这也就意味着大规模生成精细化的3D模型成为可能。
一时间,高斯溅射技术在业内引起广泛关注,并被不少业内人士称之为是三维重建领域的颠覆式生产力。
在此背景下,即便是此前以NeRF为主要技术路线的厂商Luma AI,也随即发布新一代基于高斯溅射构建的可交互场景和API,开始“NeRF+高斯溅射”并行,两条腿走路。
那时,距离知天下落户苏州正好半年。
当回忆起看到这篇论文时的第 一反应时,宋宽说,除了迅速转发到团队群之外,我还发了一句话:我们之前一直在寻找AI和XR结合时缺失的那一环,终于出现了。
一直以来,XR领域被认为缺乏大规模、高质量的3D内容,无法喂饱用户;人工智能领域则一直在寻找可以实现规模效益和网络效应的直观应用场景。
高斯溅射的出现,正好弥合两者的缺漏。
知天下创始人兼CEO宋宽,图片来源:受访人提供简单来说,三维重建任务就是给定一个场景的多个视角的图像,重建出这个场景的三维模型。
三维重建最早出现于上世纪中叶测绘学的一个子领域:摄影测量。随后在上世纪八九十年代,计算机科学领域重新发现了这项工作的价值,将其快速推进、迭代。
目前,在大多数的3D建模领域中,Mesh网格表达已经成为行业主流。近二十年来,GPU的快速迭代,更是大大提高了Mesh模型的渲染速度。
当然弊端也很明显。Mesh模型只能重建出物体的一层表面“薄壳”,对于表面不平滑的物体的建模效果就会很差、很假,需要追加大量人工,加以修订。
尤其是面对植物、毛发、水面倒影、建筑纹理等建模细节,即便经过人工修订,仍然无法达到真实世界的视觉效果。
时间来到2020年,由谷歌提出的NeRF(神经辐射场 Neural Radiance Fields)技术,为三维重建带来了新思路。
研究NeRF的目的在于合成同一场景不同视角下的图像。其路径大致可以概括如下:根据给定场景的若干张图片,重构出这个场景的3D表示,然后推理的时候输入不同视角就可以合成(渲染)这个视角下的图像了。
这一技术的核心思想是将每一个三维场景的底层数据结构从Mesh网格转为更微小的层级:沿着光传导路线的体渲染。
学者们假设,相机从各个角度去给这个三维场景拍照的时候,相当于从相机角度的光路做了一次该方向的色彩和体素密度的积分,这被称为体渲染。而深度学习网络所做的就是对每个相机角度拍到照片,和体渲染计算之间的误差最 小化。
NeRF提出三年多来,最可贵的思想是光栅化(rasterization)渲染,这是可以使用深度学习的部分。
但是在后来的实践中,从业者们渐渐发现NeRF的渲染效果其实有限,而且体渲染的深度学习训练效率并不高。
从某种程度上来说,高斯溅射的出现,对于急于补上AI与XR之间missing link的宋宽来说,无疑是“久旱逢甘霖”。
“人工智能一定是生产3D内容的必经之路。VR这一块如果用人工手绘或者Mesh建模来做的话,效率极其低下,必定会陷入内容匮乏、成本高昂的境地。可是直到高斯溅射出来之后,我才有了技术抓手。”他说道。
2.一段厚积薄发的技术源渊
说到宋宽和高斯溅射这门技术的渊源,或许可以追溯到更远。