大学站·高校BBS's Archiver

daxuezhan 发表于 2020-11-20 12:12

【竞赛】全球第一个小资源音色克隆挑战赛正式启动

[p=30, 2, left][b][font=微软雅黑]竞赛简介[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    文语转换(TTS)又称为语音合成,旨在将文本转换成自然语音的一类技术,是智能语音领域的前沿技术,在语音助手、信息播报、有声读物等方面具有重要的应用价值。在深度学习的帮助下,语音合成已实现了效果上的显著提升。端到端语音合成框架和神经声码器的最新进展使得我们能够生成特定领域内非常逼真和自然的语音,几乎可以以假乱真。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][font=微软雅黑][size=12pt]    但是,这种令人惊叹的能力仍然受限于训练集是大量单一说话人且表现力不够丰富数据的的理想情况。对于多说话人和多风格的语音合成,特别是在真实环境录制或是低资源的情况下表现力和鲁棒性仍然不能令人满意。例如,仅拥有每个说话人非常少量的音频样本时,语音的质量和目标说话人的相似度、表现力和鲁棒性仍然不能令人满意。[/size][/font][b][font=微软雅黑]即便是现有公开的音色克隆方案,对集外数据的音色复刻缺乏鲁棒性。[/font][/b][font=微软雅黑][size=12pt][font=微软雅黑]我们称这种有挑战性的任务为多说话人和多风格的语音克隆任务([/font]M2VoC)。[/size][/font]

[font=微软雅黑][size=12pt]    近年来,迁移学习、风格迁移,说话人编码和因素解耦等方面的最新进展,为低资源语音克隆的提供了潜在的解决方案。[/size][/font][b][font=微软雅黑][font=微软雅黑]爱奇艺联合多家单位在[/font]ICASSP2021举办多说话人多风格音色克隆大赛-M2VoC,M2VoC挑战赛旨在提供一个通用的数据集以及一个公平的测试平台,对语音克隆任务进行研究。[/font][/b][font=微软雅黑][size=12pt][font=微软雅黑]作为[/font]2021年声学、语音和信号处理国际会议(ICASSP2021)信号处理挑战旗舰任务之一,非常鼓励学术界和工业界的研究人员加入《多说话人多风格音色克隆大赛(M2VoC)》挑战。 [/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑] 赛道任务 [/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][i][font=微软雅黑][font=微软雅黑]赛道[/font]1:少样本赛道[/font][/i][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    主办方将分别提供两个和四个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和100个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库,可用来训练基础模型。目标说话人的测试集是一系列句子和短段落,用于针对目标说话人的文本到语音的生成。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][size=12pt][font=微软雅黑]・子赛道[/font]1A:[/size][/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    语音合成系统的搭建仅限于使用竞赛组织者提供的数据,  禁止使用除此之外的数据。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][size=12pt][font=微软雅黑]・子赛道[/font]1B:[/size][/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]除了竞赛组织者提供的数据之外,可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中,应当明确说明使用的公开数据来源。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][i][font=微软雅黑][font=微软雅黑]赛道[/font]2:极少样本赛道[/font][/i][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    主办方将分别提供两个和四个说话人用于音色克隆的校验和最终测试。每个说话人有不同的说话风格和5个可用的音色克隆样例。主办方还将为参赛者提供一个多说话人语料库,可用来训练基础模型。目标说话人的测试集是一系列句子和短段落,用于针对目标说话人的文本到语音的生成。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][size=12pt][font=微软雅黑]・子赛道[/font]1A:[/size][/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    语音合成系统的搭建仅限于使用竞赛组织者提供的数据,禁止使用除此之外的数据。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][size=12pt][font=微软雅黑]・子赛道[/font]1B[/size][/font][/b][b][font=微软雅黑][size=12pt]:[/size][/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    除了竞赛组织者提供的数据之外,可以使用任何公开数据搭建语音合成系统。但是在提交的系统描述中,应当明确说明使用的公开数据来源。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑]测评与排名[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    竞赛主办方将以主观测听的的方式对目标说话人的合成测试数据进行评测,以下标准进行:[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑]・说话人相似度:[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    以说话人相似度为目标的5分制的MOS得分,即合成语音与目标说话人语音的接近程度。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑]・语音质量:[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    针对合成语音质量的5分制的MOS得分。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][font=微软雅黑]・风格[/font]/表现力:[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    针对合成语音的表现力/风格的5分制的MOS得分,即合成语音与目标说话人风格与表现力的接近程度。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑]・发音准确率:[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    合成语音的发音准确率。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][font=微软雅黑][size=12pt]    根据上述标准的加权和作为挑选每个子任务最终的获奖者的依据。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    具体细节稍后公布。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑]数据集[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt][font=微软雅黑]竞赛组织者将在竞赛进行的不同阶段提供[/font]4个语音/文本数据集。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑][font=微软雅黑]多说话人训练数据[/font] (MST):[/font][/b]
[font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    该部[/size][/font][font=微软雅黑][size=12pt][font=微软雅黑]分数据由两个子集构成,包括希尔贝壳提供的[/font]AIShell-3数据集,我们称为MST-AIShell。该数据集包含来自218人大约85小时的中文普通话语音数据,语音在一个普通房间通过高保真麦克风录制,房间有一定混响和底噪。该数据集已经公开,可以从[/size][/font][url=http://www.aishelltech.com/aishell_3][font=微软雅黑]http://www.aishelltech.com/aishell_3[/font][/url][font=微软雅黑][size=12pt][font=微软雅黑]下载。另外一个数据集称为[/font]MST-Originbeat,由起源智能提供,包括一男一女两个中文普通话发音人,语音数据在标准录音棚用高保真麦克风录制。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑][font=微软雅黑]目标说话人校验集[/font] (TSV):[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑]    ・赛道1:[/font][/b][font=微软雅黑][size=12pt] 两个具有不同讲话风格的校验目标说话人,每个说话人有100个语音样本。语音数据是在静音室内使用高保真麦克风录制。这两个校验目标说话人提供给参赛者做音色克隆尝试。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑]    ・赛道2:[/font][/b][font=微软雅黑][size=12pt] 两个具有不同讲话风格的校验目标说话人,每个说话人有5个语音样本。语音数据是在静音室内使用高保真麦克风录制。这两个校验目标说话人提供给参赛者做音色克隆尝试。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑][font=微软雅黑]目标说话人测试集[/font] (TST):[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑]    ・Track 1:[/font][/b][font=微软雅黑][size=12pt] 四个具有不同讲话风格的测试目标说话人,每个说话人有100个语音样本。语音数据是在静音室内使用高保真麦克风录制。这四个测试目标说话人提供给参赛者做音色克隆,用于最终测试。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑]    ・Track 2:[/font][/b][font=微软雅黑][size=12pt] 四个具有不同讲话风格的测试目标说话人,每个说话人有5个语音样本。语音数据是在静音室内使用高保真麦克风录制。这四个测试目标说话人提供给参赛者做音色克隆,用于最终测试。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][font=微软雅黑]测试文本集[/font](TT): [/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    竞赛组织者提供的句子和段落列表,参赛者使用给目标说话人搭建的语音合成系统合成语音,用于最终测试。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt][font=微软雅黑]所有音频数据是单声道,[/font]44.1KHz采样率,量化位数为16bit,并配有抄本。语言为汉语普通话。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑][font=微软雅黑]时间安排([/font]AoE时间)[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]2020年11月27日:发布详细参赛指引。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]2020年12月4日:竞赛注册截止,MST-Originbeat和TSV数据集公布。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]2021年1月8日:TST数据集公布。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]2021年1月13日:TT数据集公布。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]2021年1月15日:[/size][/font][font=微软雅黑][size=12pt][font=微软雅黑]基于[/font]TT数据集,针对目标测试说话人(TST)合成语音提交截止日期。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]2021年1月29日:评测结果公布。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]2021年2月5日:参赛队伍系统描述论文提交截止。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]2021年2月11日:入选ICASSP的论文提交截止。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑]竞赛报名[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    欢迎来自学术界和工业界的参赛者通过竞赛官网[/size][/font][url=http://challenge.ai.iqiyi.com/M2Voc][font=微软雅黑]http://challenge.ai.iqiyi.com/M2Voc[/font][/url][font=微软雅黑][size=12pt] 注册,截止日期为2020年12月4日(AoE时间)。竞赛组织者会在3个工作日确认报名队伍的参赛资格。参赛队伍必须遵守发布在竞赛官网上的参赛规则。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][font=微软雅黑][size=12pt]    参赛者可以选择任意赛道和子赛道。竞赛细则将在官网上公布。关于竞赛细则的解释权利完完全归属竞赛组织方。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑]奖金[/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]该比赛奖金总金额[/size][/font][b][font=微软雅黑][size=12pt]9600 USD由爱奇艺提供[/size][/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt][font=微软雅黑]每个子赛道的前两名队伍将获得奖金[/font]:[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][size=12pt][font=微软雅黑]第一名[/font]: 1500 USD[/size][/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][size=12pt][font=微软雅黑]第二名[/font]: 800 USD[/size][/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][font=微软雅黑][size=15pt][font=微软雅黑]组织委员会[/font][/size][/font][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    谢   磊  西北工业大学教授[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    李   海  爱奇艺高级经理[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    石   松  爱奇艺高级经理[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    李海洲  新加坡国立大学教授[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    吴志勇  清华大学副教授[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    田霄海  新加坡国立大学研究员[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    洪   芬  起源智能CEO[/size][/font]
[font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt]    卜   辉  希尔贝壳CEO[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][b][i][font=微软雅黑]联系方式[/font][/i][/b][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left][font=微软雅黑][size=12pt][font=微软雅黑]对本次赛事有任何问题或建议,请发邮件至:[/font]ICASSP_M2VoC@qiyi.com。[/size][/font][font=微软雅黑][size=12pt][/size][/font][/p][p=30, 2, left]
[/p][p=30, 2, left][b][font=微软雅黑][size=16pt]组织单位:[/size][/font][/b][/p][p=30, 2, left][b][font=微软雅黑][size=16pt][attach]372[/attach]
[/size][/font][/b][/p]

daxuezhan 发表于 2020-11-20 12:12

[attach]373[/attach]

页: [1]


Powered by Discuz! Archiver 7.2  © 2001-2009 Comsenz Inc.