首页
会议中主动发言者检测的音视频融合策略
返回

会议中主动发言者检测的音视频融合策略

2022-12-19 科技信息 By:佚名
最佳答案主动说话者检测是检测在给定时间说话的人的任务。在这种情况下,交流不仅通过语音进行,还通过非语言符号进行。因此,纯音频方法可能不够高效。arXiv.org最近的一篇论文提出了一种依赖于音频信息与视频信息相结合的方法。研究人员合并视觉和音频特征以获得稳健的最终检测。分析了两种可能的音频分析...

主动说话者检测是检测在给定时间说话的人的任务。在这种情况下,交流不仅通过语音进行,还通过非语言符号进行。因此,纯音频方法可能不够高效。

arXiv.org最近的一篇论文提出了一种依赖于音频信息与视频信息相结合的方法。

研究人员合并视觉和音频特征以获得稳健的最终检测。分析了两种可能的音频分析方法:一种具有神经网络的监督方法和一种具有扬声器分割和聚类方法的无监督方法。基于3DCNN的纯视觉说话者分类器应用于视觉模态。

研究人员比较了两种融合:朴素融合和基于注意力模块的融合。结果表明,合并视觉和音频模式比我们的基于视频的系统具有更高的性能。

会议是专业环境中的常见活动,赋予语音助理高级功能以促进会议管理仍然具有挑战性。在这种情况下,像主动说话者检测这样的任务可以为模拟会议参与者之间的交互提供有用的见解。受我们与高级会议助手相关的应用程序上下文的启发,我们希望结合音频和视频信息以实现最佳性能。在本文中,我们提出了两种不同类型的融合来检测主动说话者,通过神经网络结合两种视觉模式和一种音频模式。为了进行比较,还使用了用于音频特征提取的经典无监督方法。我们期望以每个参与者的面部为中心的视觉数据非常适合基于对嘴唇和面部手势的检测来检测语音活动。因此,我们的基线系统使用视觉数据,我们选择了3D卷积神经网络架构,该架构对于同时编码外观和运动是有效的。为了改进这个系统,我们通过使用CNN或无监督扬声器分类系统处理音频流来补充视觉信息。我们通过光流运动添加视觉模态信息,进一步改进了这个系统。我们使用公开且最先进的基准评估了我们的提案:AMI语料库。我们分析了每个系统对合并的贡献,以确定给定的参与者当前是否在讲话。我们还讨论了我们获得的结果。此外,我们已经证明,对于我们的应用程序上下文,添加运动信息可以大大提高性能。最后,我们证明了基于注意力的融合在降低标准偏差的同时提高了性能。

猜你喜欢
金色的脚印百科(金色的脚印主要内容简)

金色的脚印百科(金色的脚印主要内容简)

12-18 0 阅读
介绍Windows 7恢复系统隐藏文件的两种方法

介绍Windows 7恢复系统隐藏文件的两种方法

12-18 0 阅读
诺基亚c5 01(诺基亚c505(诺基亚C505))

诺基亚c5 01(诺基亚c505(诺基亚C505))

12-18 0 阅读
小米air2se和2s有什么区别(小米2和2s有什么区别(小米2跟2s有什么区别))

小米air2se和2s有什么区别(小米2和2s有什么区别(小米2跟2s有什么区别))

12-19 0 阅读
市本级社保和区社保有什么区别(市本级)

市本级社保和区社保有什么区别(市本级)

12-19 0 阅读
我本将心向明月奈何明月照沟渠这句话是什么意思

我本将心向明月奈何明月照沟渠这句话是什么意思

12-18 0 阅读
热门推荐
钠离子外流属于什么运输方式(钠离子)

钠离子外流属于什么运输方式(钠离子)

12-19 0 阅读
梦幻西游手游表情(梦幻西游新表情)

梦幻西游手游表情(梦幻西游新表情)

12-18 0 阅读
张韶涵演唱会(关于张韶涵演唱会的介绍)

张韶涵演唱会(关于张韶涵演唱会的介绍)

12-19 0 阅读
氢氧化钾的电子式形成过程(氢氧化钾的电子式)

氢氧化钾的电子式形成过程(氢氧化钾的电子式)

12-18 0 阅读
面如土色的近义词和反义词(面如土色的近义词)

面如土色的近义词和反义词(面如土色的近义词)

12-18 0 阅读
琦基u2000(琦基u1000)

琦基u2000(琦基u1000)

12-18 0 阅读
音悦台怎么创建悦单(音悦台怎么打榜?音悦台打榜教程)

音悦台怎么创建悦单(音悦台怎么打榜?音悦台打榜教程)

12-18 0 阅读
苏州红砖价格多少钱一块(红砖价格多少钱一块)

苏州红砖价格多少钱一块(红砖价格多少钱一块)

12-18 0 阅读
厦门律师事务所免费咨询在线(厦门律师事务所免费咨询)

厦门律师事务所免费咨询在线(厦门律师事务所免费咨询)

12-18 0 阅读
大合唱的队形(大合唱队形及动作)

大合唱的队形(大合唱队形及动作)

12-18 0 阅读