音乐信息检索领域的歌声旋律提取研究

发布时间： 2024-06-11

浏览量： 230

个人简介：

于帅，东华大学计算机科学与技术学院讲师，硕士生导师。中国计算机学会语音对话与听觉专委会委员，研究方向为音乐人工智能、多媒体信息处理与检索。主持及参与国家重点研发计划、国家自然科学基金等国家和省部级科研项目多项。发表CCF A/B类论文10余篇，担任AAAI、ACM Multimedia、IJCAI、SIGIR、TMM、TASLP、TAC等会议期刊审稿人。

报告摘要：

为了解决歌声旋律提取中的标注数据稀缺和模型泛化性差的问题，我们提出了一个基于多任务对比学习的半监督歌声旋律提取模型。为了克服标注音乐数据稀缺的问题，我们提出了一种自洽正则化的方法，我们对无标签的音乐原始数据进行转换，然后将这些信号用于模型的预测。要求模型能够一致的预测出旋律线的位置的同时，能够识别出输入进来的音乐信号做了何种转换。为了克服不同音乐流派在提取歌声旋律时泛化性能较差的问题，我们提出了一种领域自适应的方法，让模型能够学习领域无关的特征用于歌声旋律提取。最后，我们将上述模块的损失函数一起进行优化，进行多任务学习。我们提出的模型在公开数据集上均取得了state-of-the-art的效果，有效解决了歌声旋律提取中标注数据稀缺、泛化能力差的问题。

时间：6月18日13:30

地点：1号学院楼240