鸟类声音识别方法、模型训练方法、装置、电子设备
本公开涉及人工智能,具体涉及一种鸟类声音识别方法、模型训练方法、装置、电子设备,更具体地涉及一种基于双路径时频联合建模的多辅助分支的鸟类声音识别方法、模型训练方法、装置、电子设备。
背景技术:
1、鸟类鸣声中包含着丰富的生物学信息,是鸟类进行信息传递交流最有效的手段之一。通过对鸣声数据的分析,不仅能够获取到目标鸟类声音所包含的鸟类物种信息,还可以根据长周期的监测数据分析该处生态环境的变化情况。
2、然而,当前对于鸟类声音数据的分析大都依赖于生态保护工作者的手动分析处理,需要耗费大量的人力物力。尽管一些研究尝试基于深度学习技术去构建鸟类声音识别模型,以实现目标鸟类声音的自动分析处理,但这些方法尚未考虑鸟类声音谱图中的局部时频结构和全局时间依赖关系、频率依赖关系等特征,不同层次的特征信息对最终鸟类分类结果的影响也未被充分考虑,因此现有的鸟类声音识别模型存在准确率低的问题。
技术实现思路
1、鉴于上述问题,本公开提供了一种基于双路径时频联合建模的多辅助分支的鸟类声音识别方法、模型训练方法、装置、电子设备,以期至少部分地解决上述技术问题。
2、本公开的第一个方面,提供了一种基于双路径时频联合建模的多辅助分支的鸟类声音识别模型的训练方法,该鸟类声音识别模型为n层级联结构,n>1,每层级联结构中包括依次连接的特征提取层、双路径时频联合建模单元、跳跃连接层和辅助分支分类器,该方法包括:
3、对获取的鸟类声音样本数据进行预处理,得到预处理后的鸟类声音样本数据和对应的标签数据,鸟类声音样本数据包括鸟类声音数据和环境声音数据;
4、按照n层级联结构的顺序执行如下操作,直到得到n个分类结果:
5、将预处理后的鸟类声音样本数据输入至第i-1层级联结构的特征提取层,输出第一特征数据后输入至双路径时频联合建模单元内,输出第二特征数据后输入跳跃连接层内,输出第三特征数据后输入至辅助分支分类器内,输出第i-1分类结果,其中,i≤n;
6、将第i-1层级联结构中跳跃连接层输出的第三特征数据输入到第i层级联结构中,输出第i分类结果;
7、根据n个分类结果,得到鸟类的分类结果;
8、根据鸟类的分类结果与标签数据计算损失值,得到损失结果;
9、利用损失结果迭代地调整鸟类声音识别模型的参数,得到训练完成的鸟类声音识别模型。
10、根据本公开的实施例,双路径时频联合建模单元包括:时间卷积-注意力机制单元和频率卷积-注意力机制单元;
11、其中,每层级联结构中双路径时频联合建模单元执行如下操作:
12、对第一特征数据进行第一重塑操作,得到第一重塑特征数据后输入到时间卷积-注意力机制单元,输出时间第一重塑特征数据;
13、将时间第一重塑特征数据与第一重塑特征数据进行第一残差连接,得到第一残差特征数据;
14、对第一残差特征数据进行第二重塑操作,得到第二重塑特征数据后输入到频率卷积-注意力机制单元,输出频率第二重塑特征数据;
15、将频率第二重塑特征数据与第二重塑特征数据进行第二残差连接,得到第二残差特征数据;
16、对第二残差特征数据进行第三重塑操作,得到第二特征数据。
17、根据本公开的实施例,n个分类结果各不相同,各自独立的包括以下任意一种特征:
18、鸟类声纹振幅、鸟类声纹边缘、鸟类声纹渐变、鸟类声纹形状、鸟类声纹纹理、鸟类声纹第一语义信息、鸟类声纹结构信息、鸟类声纹第二语义信息。
19、根据本公开的实施例,对获取的鸟类声音样本数据进行预处理,得到预处理后的鸟类声音样本数据和对应的标签数据包括:
20、对获取的鸟类声音样本数据进行提取,获得有效鸟类声音样本片段;
21、对有效鸟类声音样本片段进行滤波、分段和标注处理,得到第一鸟类声音样本数据和标签数据;
22、对第一鸟类声音样本数据进行分帧、加窗、傅里叶变换和梅尔滤波操作,获得鸟类梅尔谱图样本数据;
23、对鸟类梅尔谱图样本数据进行数据增强处理,得到预处理后的鸟类声音样本数据。
24、根据本公开的实施例,对鸟类梅尔谱图样本数据进行数据增强处理,得到预处理后的鸟类声音样本数据包括以下至少一种数据增强处理方式:
25、使用随机拉伸比例对输入的鸟类梅尔谱图样本数据进行水平方向或垂直方向的缩放,以模仿鸟类发声过程中音调和节奏的改变;
26、使用随机滚动比例对输入的鸟类梅尔谱图样本数据进行水平方向或垂直方向的偏移,以模拟鸟叫声音调和发声时间的变化;
27、沿着给定网格对输入的鸟类梅尔谱图样本数据进行扭曲,以模拟鸟类声音采集过程中遇到的失真情况;
28、使用随机掩蔽比例对输入的鸟类梅尔谱图样本数据进行水平方向或垂直方向的掩蔽,以模拟鸟类声音采集中遇到的信息丢失问题。
29、本公开的第二个方面,提供了一种基于双路径时频联合建模的多辅助分支鸟类声音识别方法,包括:
30、对获取的目标鸟类声音数据进行预处理,得到预处理后的目标鸟类声音数据,目标鸟类声音数据包括目标鸟类声音数据和环境声音数据;
31、将预处理后的目标鸟类声音数据输入到训练完成的鸟类声音识别模型中,输出预测结果;
32、将预测结果与预设的输出阈值进行比较,在预测结果大于预设的输出阈值的情况下,确定出目标鸟类声音数据中的目标鸟类信息;
33、其中,训练完成的鸟类声音识别模型由上述的基于双路径时频联合建模的多辅助分支的鸟类声音识别模型的训练方法训练得到。
34、根据本公开的实施例,对获取的目标鸟类声音数据进行预处理,得到预处理后的目标鸟类声音数据包括:
35、对预处理后的目标鸟类声音数据进行提取,以获得目标有效鸟类声音片段;
36、对目标有效鸟类声音片段进行滤波、分段,得到第一目标鸟类声音数据;
37、对第一目标鸟类声音数据进行分帧、加窗、傅里叶变换和梅尔滤波操作,得到预处理后的目标鸟类声音数据。
38、本公开的第三个方面,提供了一种基于双路径时频联合建模的多辅助分支的鸟类声音识别模型的训练装置,该鸟类声音识别模型为n层级联结构,n>1,每层级联结构中包括依次连接的特征提取层、双路径时频联合建模单元、跳跃连接层和辅助分支分类器,该装置包括:
39、鸟类声音样本预处理模块,用于对获取的鸟类声音样本数据进行预处理,得到预处理后的鸟类声音样本数据和对应的标签数据,鸟类声音样本数据包括鸟类声音数据和环境声音数据;
40、模型训练模块,用于按照n层级联结构的顺序执行如下操作,直到得到n个分类结果:
41、将预处理后的鸟类声音样本数据输入至第i-1层级联结构的特征提取层,输出第一特征数据后输入至双路径时频联合建模单元内,输出第二特征数据后输入跳跃连接层内,输出第三特征数据后输入至辅助分支分类器内,输出第i-1分类结果,其中,i≤n;
42、将第i-1层级联结构中跳跃连接层输出的第三特征数据输入到第i层级联结构中,输出第i分类结果;
43、根据述n个分类结果,得到鸟类的分类结果;
44、计算模块,用于根据鸟类的分类结果与标签数据计算损失值,得到损失结果;
45、调整模块,用于利用损失结果迭代地调整鸟类声音识别模型的参数,得到训练完成的鸟类声音识别模型。
46、本公开的第四个方面,提供了一种基于双路径时频联合建模的多辅助分支的鸟类声音识别装置,包括:
47、目标鸟类声音预处理模块,用于对获取的目标鸟类声音数据进行预处理,得到预处理后的目标鸟类声音数据,目标鸟类声音数据包括目标鸟类声音数据和环境声音数据;
48、预测模块,用于将预处理后的目标鸟类声音数据输入到训练完成的鸟类声音识别模型中,输出预测结果;
49、确定输出模块,用于将预测结果与预设的输出阈值进行比较,在预测结果大于预设的输出阈值的情况下,确定出目标鸟类声音数据中的目标鸟类信息;
50、其中,训练完成的鸟类声音识别模型由上述实施例中提供的模型训练方法训练得到。
51、本公开的第五个方面,提供了一种电子设备,包括:
52、一个或多个处理器;
53、存储器,用于存储一个或多个程序,
54、其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述实施例中的方法。
55、本公开的第六个方面,提供了一种计算机可读存储介质,存储有计算机可执行指令,该指令在被执行时用于实现如上实施例中的方法。
56、本公开的第七个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机可执行指令,该指令在被执行时用于如上实施例中的方法。
57、根据本公开的实施例,本公开提供的鸟类声音识别模型为n层级联结构,n>1,其中每层级联结构中包括依次连接的特征提取层、双路径时频联合建模单元、跳跃连接层和辅助分支分类器,将预处理后的鸟类声音样本数据输入到n层级联结构的鸟类模型中进行训练,得到n个分类结果,然后再根据n个分类结果得到鸟类的分类结果,具体表现为:通过将预处理后的鸟类声音样本数据输入到特征提取层进行提取输出第一特征数据、将第一特征数据输入至双路径时频联合建模单元内,可以实现时间频率结构的局部特征的特征提取、同时还能够对时间依赖关系和频率依赖关系的全局依赖关系进行构建,得到第二特征数据。以及将得到的第二特征数据输入输入至跳跃连接层内,将跳跃连接层输出的第三特征数据分别输入到辅助分支分类器进行分类和下一层级联结构中进行分类、特征提取处理,以此充分考虑不同层级联结构中的不同层次的分类结果对最终鸟类的分类结果的影响,有效提升鸟类声音识别模型对目标鸟类声音识别的精度。然后,再根据鸟类的分类结果与标签数据计算损失值,得到损失结果,最后根据损失结果迭代地调整鸟类声音识别模型的参数,从而获得训练完成的鸟类声音识别模型,用此方法获得的鸟类声音模型能够在关注鸟类声音局部特征信息的同时,还能够实现对全局特征信息和不同层次分类信息的关注,有助于获得较为精准的鸟类声音识别结果。
相关知识
模型训练方法、动物行为识别方法、装置、设备.pdf
宠物行为识别方法及电子设备
鸟类声音识别方法,装置,计算机设备和存储介质
宠物语言识别方法、装置、电子设备及可读存储介质
鸟类识别方法、装置、计算机设备及存储介质
鸟类声音识别方法、装置、计算机设备和存储介质与流程
宠物行为识别方法及电子设备.pdf
一种基于声音特征优化选择的鸟声识别方法
宠物运动状态的识别方法、系统、介质及电子设备与流程
基于鸣声的鸟类智能识别方法研究
网址: 鸟类声音识别方法、模型训练方法、装置、电子设备 https://www.mcbbbk.com/newsview1167715.html
上一篇: 基于机器学习的鸟声识别研究.pd |
下一篇: 一种鸟声识别系统及识别方法与流程 |
推荐分享

- 1我的狗老公李淑敏33——如何 5096
- 2南京宠物粮食薄荷饼宠物食品包 4363
- 3家养水獭多少钱一只正常 3825
- 4豆柴犬为什么不建议养?可爱的 3668
- 5自制狗狗辅食:棉花面纱犬的美 3615
- 6狗交配为什么会锁住?从狗狗生 3601
- 7广州哪里卖宠物猫狗的选择性多 3535
- 8湖南隆飞尔动物药业有限公司宠 3477
- 9黄金蟒的价格 3396
- 10益和 MATCHWELL 狗 3352