新框架如何有效提高ASR在嘈杂环境中的性能?

如题所述

革新之声:新突破!中国科研团队打造高效ASR模型,为嘈杂环境下的语音识别带来曙光

随着Siri和Amazon Alexa等智能语音助手的普及,自动语音识别(ASR)技术已深入日常生活。然而,尽管历史悠久,ASR在应对复杂声学环境时的稳定性和准确性依然是一大挑战。近日,香港科技大学和微众银行的研究团队联手,发布了一项突破性成果——语音语义预训练(PSP)框架,旨在显著提升ASR在日常噪音环境下的表现。



8月28日,他们的研究在权威期刊《CAAI人工智能研究》上发表,揭示了PSP在合成高噪声语音数据集上展现出的卓越鲁棒性。Xueyang Wu,香港科技大学计算机科学与工程系的专家表示:“提升ASR的稳健性,是我们研究的首要目标,我们希望能以较低的成本为中国ASR系统提供更强的抗干扰能力。”



ASR的核心任务是通过机器学习和AI技术将语音转化为文本,应用场景日益广泛。然而,现代需求呼唤更强大的语音识别,能处理更多语言和口音,且在各种场合如视频会议和现场采访中保持可靠。传统方法依赖大量的特定噪声训练数据,这无疑增加了时间和成本负担。



PSP框架通过预训练技术革新了这一过程。它巧妙地修复了传统模型在处理类似中文的多音节词时的易错性,当初始解码有误时,模型能更轻易地恢复。吴教授解释道:“我们的预训练模型直接将声学输出与完整语境结合,帮助语言模型从混乱的AM输出中高效恢复,模拟了人类在嘈杂语音中识别句子的智能机制。”



PSP框架分为预热和自我监督学习两阶段。预热阶段使用未标记文本数据训练音素转换器,降低标注成本。随后,模型通过生成更复杂的数据自我学习,最后通过真实语音数据微调,实现对工业场景和合成噪音数据的高效处理。



实验证实,PSP框架显著提升了ASR性能。在两个真实数据集上,PSP分别将相对字符错误率降低了28.63%和26.38%,展示了其在提升抗噪能力方面的强大实力。未来,研究人员将继续探索更大规模的未配对数据,以优化PSP预训练,进一步提升抗噪声语言模型的效能。

温馨提示:答案为网友推荐,仅供参考