近日,国际顶级多媒体会议ACM Multimedia (ACM MM) 2024公布了最佳论文提名名单,计算机科学与技术学院于帅老师课题组发表的论文《HKDSME: Heterogeneous Knowledge Distillation for Semi-supervised Singing Melody Extraction Using Harmonic Supervision》荣获本届会议的最佳论文提名(Best Paper Nomination)。该工作于帅老师为第一作者,其指导的研究生何小亮为学生第一作者,东华大学计算机科学与技术学院为第一单位。据悉,本届ACM MM共有4385篇投稿进入审稿阶段,最终1149篇论文被录用(录用率26.20%),其中仅有26篇论文被提名ACM MM 2024最佳论文。
ACM MM是国际多媒体领域的顶级学术会议,涵盖了多媒体数据分析、计算机视觉、自然语言处理等前沿研究课题,代表了国际上多媒体研究的最高水平,也是中国计算机学会(CCF)推荐的多媒体领域唯一的A类国际学术会议。
论文中表示,现有的歌唱旋律提取方法主要依赖频域音频特征对频谱上的像素进行二分类,但这一方式忽略了不同频率点之间的音乐信息潜在关联及其对输出决策的不同重要性。此外,现有的半监督歌唱旋律提取模型在伪标签的准确性不高,这极大限制了模型性能的进一步提高。
为了解决这两个难题,论文提出了一种利用谐波监督的基于异构知识蒸馏的半监督歌唱旋律提取框架(HKDSME)。在该框架下,本文采用一种新颖的四分类范式,通过增强模型对频谱上不同像素之间关联的捕捉,从而更充分地挖掘频谱图中的谐波关联信息。为提高伪标签的准确性,论文利用谐波一致性正则化,构建了一种新的半监督方法,与以往方法不同的是,该方法通过挖掘谐波内部的位置关系来评估未标注数据的可用性。此外,为构建高效的轻量级模型,论文设计了异构知识蒸馏(HKD)模块,以在异构模型之间传递先验知识,并提出了一种新颖的置信度引导损失函数,以减少错误的伪标签。HKDSME在多个知名公开数据集上的评估结果验证了该方法的有效性,展现了其优越的性能。