近日,山西大学大数据科学与产业研究院演化数据智能团队在通用三维形貌重建领域取得重要科学发现。研究成果以“SAS: A General Framework Induced by Sequence Association for Shape from Focus”为题发表于国际人工智能顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(简称TPAMI,影响因子20.8)。该论文第一作者为闫涛副教授,通讯作者为钱宇华教授,合作者为山西大学2023级博士生张江峰、王婕婷副教授和梁吉业教授。
该研究首次从理论上证明了三维形貌重建多视图融合类方法的一种泛化误差界(图1),不同于多视图融合性能依赖于多视图互补性的一般认识,发现了跨尺度多视图融合类任务性能依赖于多视图一致性,多视图之间的一致性越大,重建泛化性能界越小。基于这个重要科学发现,团队从序列关联视角提出了具有跨尺度普适性的三维形貌重建框架SAS,在公开数据集和开放场景中证实了SAS框架显著提升了宏观/微观场景三维形貌重建精度。这是国内Shape from Focus(简称SFF)领域研究首次登上TPAMI期刊,也是国际上该领域在TPAMI发表的第三篇论文(前两篇分别发表于1994年和2012年),相比于最先进的SFF方法,SAS框架在七种公开数据集的均方根误差指标上平均下降29.46%。
图1. 理论上发现的泛化误差界
随着智能制造、虚拟现实等技术的发展,宏微观跨尺度三维形貌重建面临三大挑战:(1)成像特征差异大,宏观场景与微观场景难以统一建模;(2)现有深度学习方法泛化能力不足,难以适应复杂实际场景;(3)传统方法在序列图像关联特征提取方面存在缺陷,时空信息利用不充分制约了精度提升。针对上述挑战,本研究创新性地提出了序列关联引导的通用三维形貌重建框架SAS,具有以下创新性突破:
(1)理论创新:揭示了多视图一致性对提升重建精度的关键作用,建立了更紧的泛化误差界,为宏微观跨尺度重建提供了理论保障。
(2)方法创新:通过构建序列关联机制,实现了宏观场景语义信息与微观场景细节特征的有机融合,突破了传统方法在跨尺度重建中的局限性。
(3)性能突破:该框架不仅显著提升了宏观场景的重建质量,更将三维重建精度推进至亚微米级光学成像极限,为精密制造、生物医学等领域的微观测量提供了新的技术手段。
论文在多个宏观与微观数据场景中进行了实验验证,结果表明SAS框架不仅优于先进的模型设计类SFF方法,而且在泛化性方面优于主流的深度学习类SFF方法,特别是对于开放世界中的宏观/微观场景中表现出了卓越的适应性(图2)。
图2. SAS框架的宏微观场景普适性
该研究工作得到国家自然科学基金重大项目(T2495250,T2495251)、国家自然科学基金重点项目(62136005)、国家自然科学基金区域创新发展联合重点项目(U21A20473,U24A20253)、国家自然科学基金(62472268,62306170),中央引导地方科技发展资金项目(YDZJSX20231C001,YDZJSX20231B001)等支持。
TPAMI期刊于1979年创刊,是国际上公认的人工智能领域顶级期刊,同时也被中国计算机学会(CCF)推荐为人工智能领域的A类期刊,主要刊登人工智能领域的高质量前沿研究成果。
(网易山西 黄晶 通讯员 张馨文 助编 李玫林)