12月11日,由上海市浦东新区科技和经济委员会、上海金桥经济技术开发区管理委员会指导,上海金桥(集团)有限公司、阿里云计算有限公司与宝马(中国)服务有限公司主办,瑞谷科创荣誉承办的2024Create@“未来出行”赛道全球创新大赛决赛成功举办。多位领导和专家莅临现场,见证了大赛各个奖项诞生。杭州卓印智能科技有限公司荣获三等奖。
随着AI应用的深入,从自动驾驶到健康医疗,对高质量训练数据的需求日益增长。目前市场上,尽管存在大量数据,但高质量的、多样化的训练数据依然稀缺,尤其是在处理corner case情况时更是如此。例如,在自动驾驶中,车辆误刹车常因训练数据中低矮障碍物的识别问题而引起,这恰恰是训练集中corner case不足的体现。此外,MIT等研究机构的最新研究指出,到2026年之前,高质量的机器学习语言数据可能将被耗尽。
这一预测不仅揭示了机器学习领域对数据的极端需求,也暗示了更广泛的AI应用领域,尤其是图像处理领域,可能面临的数据短缺问题。相比语言数据,高质量图像数据的获取受限于更多的技术和法律障碍。数字化图像的采集不仅依赖于高级的传感器技术,还必须应对版权、隐私以及跨国法规等问题。这些挑战使得仅依赖实际采集的方法难以满足日益增长的AI训练需求。
在这种背景下,合成数据技术应运而生,为解决这一瓶颈提供了可行的解决方案。正如OpenAI的CEO Sam Altman曾公开表达的那样,他认为在未来数据获取和使用将越来越依赖于合成数据。据Gartner的报告,2021年合成数据在所有AI训练数据中的占比仅为1%,预计到2024年末将增长至60%。此外,plug and play预测,到2030年,全球合成数据市场将达到千亿美元规模。在这一趋势的前沿,「卓印智能」的技术创新正发挥着重要作用。
「卓印智能」采用了一种基于端到端AI模型的创新合成数据生成技术,这种技术不仅能够生成在物理规则上高度逼真的数据,还能够避免传统数据采集在corner case上的局限以及法律法规和隐私问题的掣肘。同时也可以避免在仿真技术上普遍存在的“数据次元壁”的影响,使得AI模型能在更加复杂多变的环境中进行有效训练,提高了决策的准确性和适应性。
「卓印智能」的创始人,俞开文博士,是一位从2010年便开始从事AI领域的技术专家,他不仅负责过EPSRC的算法项目,也曾在百度和蚂蚁金服等大型科技公司担任高级AI技术架构师。俞博士对合成数据技术的前景充满信心,他认为:“合成数据技术正在开辟AI发展的新天地,它不仅可以解决数据短缺问题,还可以大幅降低数据采集和处理的成本。”
在2023年Q4的(POC)测试中,「卓印智能」的合成数据技术已经帮助合作伙伴成功提高了AI模型的性能,平均效能提升达到8%-9%。截止目前,这家不足10人的初创企业已经获得了超过2000万元人民币的商业订单,客户涵盖自动驾驶和机器人领域的头部企业。
「卓印智能」的技术基于自研的端到端扩散模型和世界模型,这一“双螺旋”技术路线不仅赋予了合成数据更高的适应性,还能够在数据的时间和空间上提供了前所未有的拓展性。另外,不同于市场上现有的生成模型,卓印自研的生成模型具有在生成数据的同时自动根据生成对象提取其对应的标注区域的能力,这种“label-training data”的生成方式为AI训练领域带来了革命性的改进。该团队正利用本轮融资进一步优化其自研世界模型「Terra-1」的商业应用落地和生成模型「Simulaix」的量产交付能力。
通过模拟传感器看到的真实世界来助力AI对现实世界的理解,「卓印智能」正在为自动驾驶、工业Agent领域内的客户提供海量、高质量的合成训练数据。俞开文博士与他的团队立志通过技术创新不断推进AI行业的进步:“用更好的数据,更好的AI,为每一个人,直到永远”,他们相信,未来合成数据将像电力一样,变得便宜、易于获取,成为推动AI发展的基石。