首页 分享 一种基于注意力机制的鸟类声音识别方法及装置与流程

一种基于注意力机制的鸟类声音识别方法及装置与流程

来源:萌宠菠菠乐园 时间:2025-11-13 18:41

本技术涉及鸟类声音识别,尤其是一种基于注意力机制的鸟类声音识别方法及装置。


背景技术:

1、我国鸟类资源丰富,鸟类是人类的朋友也是生态环境的组成者,鸟类能够敏感的感知环境中的微小变化,是用于监测环境变化的最理想生态物种。在鸟类多样性研究中,鸣叫作为一个典型特征,具有可辨识度高等优势,已成为鸟类物种多样性研究中的重要手段。

2、目前,国内声音识别分类的研究大部分集中于音乐和语音识别,对于动物声音和鸟类声音识别这一方面的研究比较匮乏。鸟鸣声识别的关键在于野外声音环境复杂条件下声音信号的获取、特征的选择和分类器的选择。声音信号的获取方面面临最大的挑战是噪音干扰,2013年陈莎莎针对实际环境中各种各样的噪音会严重干扰系统识别效果这一问题,研究了一种基于噪声功率谱动态估计的短时谱音频增强算法对带噪鸟声信号加以处理,尽可能地提取出纯粹有效的鸣声信号,从而增加分类的正确性。2022年韩鹏飞也在鸟声降噪处理方面提出了新方法。在声音分类识别上可谓取得了突破性进展,从传统的人工设计特征提取器提取特征,knn、svm等分类器进行分类识别,到深度学习兴起,特别是基于卷积神经网络的深度学习方法的应用变得流行,lstm、rnn等端到端识别方法推动了声音识别能力提升,声音识别相关研究也处于一个蓬勃发展的趋势状态。

3、但技术的快速发展并没有给真实野外声音环境复杂条件下鸟类声音识别方面带来质的提升,主要是因为在鸟类声音分类识别中,多数方法基于mfcc(mel frequencycepstrum coefficient,mel频率倒谱系数)特征展开,mel滤波器依据人耳结构特点设计对高频信号不敏感,而鸟类中有不少种类的鸣叫属于高频信号,因此会带来所提取特征信号丢失的问题,而且鸟类种类众多,单从声音信号区分部分鸟类鸣叫种属差异不大,导致复杂环境下鸟类声音信号识别精度不高的问题。

技术实现思路

1、本技术针对上述问题及技术需求,提出了一种基于注意力机制的鸟类声音识别方法及装置,本技术的技术方案如下:

2、一种基于注意力机制的鸟类声音识别方法,该鸟类声音识别方法包括:

3、获取初始样本数据集,初始样本数据集包括若干个不同种类的鸟类样本的鸟鸣数据样本;

4、对初始样本数据集中的每个鸟类样本的鸟鸣数据样本分别提取mfcc特征和gfcc特征后进行特征融合,得到鸟类样本的融合特征向量;

5、将每个鸟类样本的融合特征向量作为输入、鸟类样本所属种类作为输出,基于cnn网络进行模型训练得到基础识别模型;

6、根据应用区域的鸟类分布统计数据为基础识别模型中最后的全连接分类层添加注意力机制权重系数,得到与应用区域匹配的鸟类声音识别模型;

7、利用每个应用区域匹配的鸟类声音识别模型对应用区域内采集到的待识别鸟鸣数据进行鸟类声音识别。

8、其进一步的技术方案为,根据应用区域的鸟类分布统计数据为基础识别模型中最后的全连接分类层添加注意力机制权重系数包括:

9、根据应用区域的鸟类分布统计数据指示的各个种类的鸟在应用区域的出现频次,为基础识别模型中最后的全连接分类层的每个种类添加对应的注意力机制权重系数;一个种类的鸟在应用区域的出现频次越高、为对应种类添加的注意力机制权重系数越大。

10、其进一步的技术方案为,分别提取mfcc特征和gfcc特征后进行特征融合包括:

11、将提取到的二维尺寸为t*n的mfcc特征与提取到的二维尺寸为t*m的gfcc特征,以特征拼接的方式进行特征融合,得到二维尺寸为t*(m+n)的融合特征向量。

12、其进一步的技术方案为,全连接分类层包括全连接层和softmax层,利用每个应用区域匹配的鸟类声音识别模型对应用区域内采集到的待识别鸟鸣数据进行鸟类声音识别包括:

13、在应用区域内采集待识别鸟鸣数据,对待识别鸟鸣数据分别提取mfcc特征和gfcc特征后进行特征融合,得到待识别特征向量;

14、将待识别特征向量输入应用区域匹配的鸟类声音识别模型中,鸟类声音识别模型中的全连接层输出各个种类的取值后,按照每个种类的注意力机制权重系数进行加权计算后输入softmax层,由softmax层输出各个种类的预测概率,并将预测概率最大的种类作为待识别鸟鸣数据对应的种类识别结果。

15、其进一步的技术方案为,不同应用区域的鸟类分布统计数据不同,基于基础识别模型修正得到的相匹配的鸟类声音识别模型也不同。

16、一种基于注意力机制的鸟类声音识别装置,该鸟类声音识别装置包括:

17、样本数据获取模块,用于获取初始样本数据集,初始样本数据集包括若干个不同种类的鸟类样本的鸟鸣数据样本;

18、特征提取模块,用于对初始样本数据集中的每个鸟类样本的鸟鸣数据样本分别提取mfcc特征和gfcc特征后进行特征融合,得到鸟类样本的融合特征向量;

19、模型训练模块,用于将每个鸟类样本的融合特征向量作为输入、鸟类样本所属种类作为输出,基于cnn网络进行模型训练得到基础识别模型;

20、模型修正模块,用于根据应用区域的鸟类分布统计数据为基础识别模型中最后的全连接分类层添加注意力机制权重系数,得到与应用区域匹配的鸟类声音识别模型;

21、识别模块,用于利用每个应用区域匹配的鸟类声音识别模型对应用区域内采集到的待识别鸟鸣数据进行鸟类声音识别。

22、其进一步的技术方案为,模型修正模块,用于根据应用区域的鸟类分布统计数据指示的各个种类的鸟在应用区域的出现频次,为基础识别模型中最后的全连接分类层的每个种类添加对应的注意力机制权重系数;一个种类的鸟在应用区域的出现频次越高、为对应种类添加的注意力机制权重系数越大。

23、其进一步的技术方案为,特征提取模块,用于将提取到的二维尺寸为t*n的mfcc特征与提取到的二维尺寸为t*m的gfcc特征,以特征拼接的方式进行特征融合,得到二维尺寸为t*(m+n)的融合特征向量。

24、其进一步的技术方案为,全连接分类层包括全连接层和softmax层;

25、识别模块,用于在应用区域内采集待识别鸟鸣数据,对待识别鸟鸣数据分别提取mfcc特征和gfcc特征后进行特征融合,得到待识别特征向量;将待识别特征向量输入应用区域匹配的鸟类声音识别模型中,鸟类声音识别模型中的全连接层输出各个种类的取值后,按照每个种类的注意力机制权重系数进行加权计算后输入softmax层,由softmax层输出各个种类的预测概率,并将预测概率最大的种类作为待识别鸟鸣数据对应的种类识别结果。

26、其进一步的技术方案为,不同应用区域的鸟类分布统计数据不同,基于基础识别模型修正得到的相匹配的鸟类声音识别模型也不同。

27、本技术的有益技术效果是:

28、本技术公开了一种基于注意力机制的鸟类声音识别方法及装置,融合mfcc特征和gfcc特征得到融合特征向量,可以结合mfcc特征的高准确性与gfcc特征的强鲁棒性,避免基于单特征进行识别时有效特征缺失的局限性,弥补了现有技术单一采用mfcc特征带来的某些高频鸟鸣声音信号丢失的问题,而在识别应用阶段,根据不同应用区域的鸟类分布统计数据作为注意力机制的权重因子,为基于cnn网络的基础识别模型添加不同类别鸟类声音置信度权重系数,可以有效避免不同应用地区常见鸟类声音信号特征相似带来的误识别问题。上述两种机制都能够提高鸟类声音识别的准确性。

相关知识

一种基于注意力机制的鸟类声音识别方法及装置与流程
一种基于深度学习的狗叫情感识别方法及装置与流程
鸟类声音识别方法、模型训练方法、装置、电子设备
基于表征全局依赖关系的并行注意力机制鸟鸣声识别方法
一种宠物情绪识别方法及装置与流程
鸟类声音识别方法、装置、计算机设备和存储介质与流程
鸟类声音识别方法,装置,计算机设备和存储介质
一种宠物吠叫的识别方法及装置与流程
一种基于深度残差网络的宠物图像情绪识别方法与流程
一种基于注意力残差和特征融合的鸟语识别方法和系统

网址: 一种基于注意力机制的鸟类声音识别方法及装置与流程 https://www.mcbbbk.com/newsview1310877.html

所属分类:萌宠日常
上一篇: 鸟类声音识别方法、模型训练方法、
下一篇: 应用语音辨识技术於鸟鸣声辨识.P

推荐分享