近日,第十届对话系统技术挑战赛 DSTC10 落下帷幕。作为全球人工智能顶级学术竞赛之一,DSTC 比赛持续受到国内外知名企业和机构关注。百度在 DSTC10 中斩获了知识型任务口语对话赛道两项任务的全部冠军,并以大幅优势领先对手。
在上一届 DSTC 比赛中,百度 PLATO-2 模型夺得多个任务冠军;本次比赛,百度结合了最新发布的全球首个百亿参数对话生成模型 PLATO-XL,在赛题难度加大的情况下,凭借强大的技术实力再次拿下多个冠军。
加入错误干扰数据 知识型任务口语赛道难度空前
任务型对话基于知识为用户提供口语化的信息查询、指令执行等智能服务。今年 DSTC 的知识型任务口语对话赛道由对话状态追踪和知识对话两项核心子任务构成,这两项任务是判断对话系统能否在多轮对话中准确理解用户意图、正确传递信息的关键。
为了更接近真实场景,该赛道首次在竞赛中使用了带有自动语音识别(Automatic Speech Recognition, ASR)错误干扰的口语对话数据。下图展示了验证集中的一个对话片段,口语的表述更加复杂多样,且 ASR 错误带来的干扰很大(作为参考,灰色部分为人工再次核查录音,校正后的对话内容)。相比于传统对话系统中采用的众包数据,该赛道不仅训练数据缺乏,而且数据噪音大,这对正确理解用户信息并保持高质量的回复是一项极大的挑战。