研究开发可解释音频的人工智能 以揭开自动驾驶不为人知的秘密

新能源采编新能源汽车 2024-02-29 02:58:48 374阅读 举报

盖世汽车讯 现在,人工智能决策普遍应用于自动驾驶汽车、患者诊断和法律咨询,需要具有安全可靠的性能。研究人员致力于开发可解释和透明的模型,以揭开复杂的人工智能模型的面纱,并将它们统称为可解释性人工智能(XAI)方法。据外媒报道,在期刊《智能计算(Intelligent Computing)》上发表的一篇综述文章中,研究团队专门提供了他们对音频XAI模型的见解。

研究开发可解释音频的人工智能 以揭开自动驾驶不为人知的秘密

(图片来源:spj.science.org)

尽管对音频任务的研究比视觉任务少,但它们同样具有重要的表达能力。音频信号很容易理解和交流,因为通常不像视觉信号那样依赖于专家的解释。本质上来说,语音识别和环境声音分类等场景是基于特定的固有音频。

该综述将现有的音频XAI方法分为两类,包括适用于音频模型的通用方法和音频特定方法:

●  使用通用方法需要选择起初为非音频任务而构建的通用模型,并对其进行调整以适应特定的音频任务。这些方法通过各种输入表示(如光谱图和波形)和不同的输出格式(如特征、示例和概念)来解释音频模型。常见的通用方法包括引导式反向传播,通过突出输入数据中最相关的部分来增强标准的反向传播过程;LIME用更简单的模型来概略估算复杂的模型;以及利用网络剖析(network dissection)来分析神经网络学习的内部表征。

●  另一方面,音频特定方法专为音频任务而设计,旨在将音频输入分解成有意义的组件,专注于音频数据的听觉本质。例如,CoughLIME(在COVID-19检测中为咳嗽的声音提供超声解释)和audioLIME(赋予音频组件重要性,使用源分离来解释音乐标签模型)。

XAI方法还可以按它们的阶段、范围、输入数据类型和输出格式进行分类。阶段指的是在训练过程之前、期间或之后生成解释的阶段;范围是确定该解释是针对整个模型还是特定输入。XAI通常涉及不同的策略,例如使用预定义规则或特定的输入示例进行解释,突出最重要的特性、重点领域或输入变化,以及使用更简单的模型来局部解释复杂的模型。

该研究团队确定了若干种使音频模型更容易解释的方法,例如使用原始波形或光谱图来提供可听的解释,以及在音频数据中定义更高级别的概念,这类似于在图像数据中使用超像素的方式。他们还认为,音频解释的表达能力可以扩展至非音频模型,为基于视觉的用户交互提供补充沟通渠道或成为可能。

‌‌‌​​‌‌​⁠‌​​‌‌‌​​⁠‌​‌​‌​‌​⁠‌‌‌​​‌‌‌⁠‌​‌‌‌​‌‌⁠‌​​​‌‌‌‌⁠‌‌‌​​‌‌‌⁠‌​​‌‌​‌‌⁠‌​​‌​‌‌​⁠‌‌‌​​‌​​⁠‌​‌‌‌​​​⁠‌​​‌​‌‌​⁠‌‌‌​​‌‌​⁠‌​‌‌​​​‌⁠‌​‌‌‌‌​‌⁠‌‌‌​‌​​​⁠‌​‌‌‌‌​‌⁠‌​‌​​‌‌​⁠‌‌‌​​‌‌​⁠‌​​​‌‌‌​⁠‌​​​‌​​​⁠‌‌‌​​‌‌​⁠‌​​‌‌‌​‌⁠‌​​​​​‌‌⁠‌‌‌​​‌‌‌⁠‌​‌​​‌‌​⁠‌​​​​​​‌⁠‌‌‌​​‌‌​⁠‌​‌​‌‌​‌⁠‌​‌​​​‌​⁠‌‌‌​​‌​‌⁠‌​‌​​‌​​⁠‌​​​‌‌​‌⁠‌‌‌​​‌​‌⁠‌​​​‌​​​⁠‌​‌‌​‌‌​⁠‌‌‌​‌​​​⁠‌​‌‌‌‌​‌⁠‌​‌​‌‌​​⁠‌‌‌​‌​​​⁠‌​‌‌‌‌​‌⁠‌​‌‌‌‌​‌

版权声明:
作者:新能源采编
链接:https://www.zhaoxny.com/p/4ea552974e8a7.html
分类:新能源汽车
本网站转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与我们联系,我们将及时更正、删除。若此文章存在违规行为,您可以点击 “举报”


登录 后发表评论
0条评论
还没有人评论过~