我院教师研究成果被人工智能领域顶级国际会议 ICML 2026接收

发布者:院办公室发布时间:2026-05-18浏览次数:83

近日,我院教师马磊磊博士的两篇论文被机器学习与人工智能领域顶级国际学术会议ICML 2026International Conference on Machine Learning)接收。ICML 是机器学习领域历史最悠久、规模最大、影响力最广的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的 类国际会议。根据谷歌学术最新发布的全球学术期刊与会议影响力排名(涵盖所有学科领域),ICML 位列全球第11位,h5 指数高达 272ICML  NeurIPSICLR 并称为人工智能领域最具影响力的三大顶级会议,代表了该领域国际前沿研究的最高水平。

研究成果一:Beyond Unidirectional Bias: Reciprocal Perspective Calibration in Scene Graph Generation

      该成果由我院联合安徽大学、复旦大学共同完成,马磊磊博士担任论文通讯作者。

场景图生成(Scene Graph Generation, SGG)是视觉理解领域的重要研究方向,旨在建模图像中对象及其关系。现有方法通常采用单向关系建模方式,忽视了视觉交互本身具有的互惠性,导致模型在主体与客体视角切换时容易出现推理不一致的问题。针对这一挑战,研究团队提出了互惠视角逆关系(MPIR)原则,强调视觉表征应具备双视角逻辑一致性,并进一步提出模型无关的互惠视角校准(RPC)框架,通过自适应逆关系增强与语义提示机制提升模型对复杂关系的理解能力。实验结果表明,该方法在保持优异性能的同时,显著增强了模型的认知鲁棒性,为视觉关系建模提供了新的研究思路。

研究成果二:TD-VAD: Breaking Visual Dependence in Video Anomaly Detection with Text-Driven Learning

      该成果由我院联合南京大学、南京理工大学、中国移动紫金研究院,共同完成。马磊磊博士担任论文第二作者。

视频异常检测(Video Anomaly Detection, VAD)广泛应用于智能安防、行为分析等场景,但传统方法通常依赖大量异常视频数据进行训练,而异常数据获取成本高、标注困难,严重制约了模型的推广应用。针对这一问题,研究团队提出文本驱动视频异常检测方法(TD-VAD),创新性地利用大语言模型生成具有时序特征的文本描述替代异常视频数据进行模型训练,从而突破传统方法对视觉异常数据的依赖。该方法通过设计事件演化因果注意力机制,有效建模事件的时间逻辑关系,并结合视觉语言模型实现文本与视频模态对齐。在 XD-Violence  UCF-Crime 两个国际公开数据集上的实验结果表明,该方法显著优于现有相关方法,展现出良好的应用前景。

近年来,我院持续关注人工智能领域的科研发展,积极开展与国内高校和科研团队的学术交流与合作。此次两篇论文被ICML 接收,体现了我院教师在相关研究方向上的积极探索,也为学院学科建设和人才培养积累了有益经验。

 

供稿/马磊磊  初审/孙文君  终审/徐立祥