首页 分享 应用语音辨识技术於鸟鸣声辨识.PDF

应用语音辨识技术於鸟鸣声辨识.PDF

来源:萌宠菠菠乐园 时间:2025-11-13 18:41

应用语音辨识技术於鸟鸣声辨识

應用語音辨識技術於鳥鳴聲辨識 廖偉恩 黎欣捷 蔡偉和 國立台北科技大學 國立台北科技大學 國立台北科技大學 電腦與通訊研究所 電腦與通訊研究所 電腦與通訊研究所 t8418044@.tw t9419004@.tw whtsai@.tw 摘要 野外賞鳥已成為大眾休閒的新趨勢,但 一般民眾常只能看見鳥或聽見鳥鳴聲,卻不 知其種類為何。為了協助大眾識別鳥類 ,本論文探討鳥鳴聲自動辨識問題,透過語音辨 識相關技術,設計鳥鳴聲辨識系統。我們分別從音色及音高兩個層面進行分析,利用梅 爾刻度倒頻譜係數表示鳥鳴聲的音色特徵,並搭配高斯混合模型進行特徵的參數模型化 與比對;而音高層面分析則詴圖求取鳥鳴聲所對應的音符,再利用雙連文模型捕捉音符 的動態變化資訊,並據以比對未知鳥鳴聲 。我們挑選出大台北地區常見的十種鳥類,並 從商業 CD及鳥類相關網站上 收集鳥鳴聲資料 ,使系統訓練和測詴音檔分別屬不同的來 源。實驗結果發現,採用音色、音高、與結合兩者的系統辨識正確率分別為 71.1% 、72.1% 、 與75.04% 。 關鍵詞 :音色 、音高 、高斯混合模型 、雙連文模型 。 1.前言 目前全世界大約有九千七百多種鳥類,而台灣這樣一個小島就佔了約二十分之一的 種類,雖然我們周遭住有許多這些可愛的鄰居,但往往都只聽到它們的叫聲,卻不知它 們是誰。鳥類的鳴聲豐富且多變,我們期望藉由物種之間的鳴聲差異性,發展出一套鳥 鳴聲辨識系統,讓不是鳥類專家的一般民眾,也可以從自己隨意錄製的一段鳥鳴聲音檔 中,讓 系統判斷所屬鳥種 並獲得之相關訊息。 目前鳥鳴聲自動辨識的相關研究仍十分有限。文獻 [1]中使用動態時間校正 (Dynamic Time Warping ,DTW)演算法,將測詴聲音檔的頻譜圖(spectrogram )與事先經過專家挑 選的樣板音檔作比對。文獻 [2]中分別比較 DTW 和隱藏式馬可夫模型 (Hidden Markov Model ,HMM)在辨識鳥類聲音上的效能,其中使用 6種特徵參數:線性預估編碼參數 (Linear Predict Coding ,LPC) 、線性預估倒頻譜係數、LPC reflection 、梅爾倒頻譜係數 (Mel-frequency Cepstral Coefficients ,MFCC) [3] 、log mel-filter bank channel和 linear mel-filter bank channel 。實驗結果顯示,使用DTW的辨識效能不錯,但是對於雜訊較大 的輸入聲音檔或是容易混淆的短促鳴叫聲,則需要挑選更適合的頻譜圖樣本,這道手續 通常需要經驗豐富的專家反覆地詴驗。對於使用 HMM ,辨識效果則取決於輸入參數的 鑑別度,但效能不一定比 DTW 好。而不論是DTW或 HMM ,所使用的辨識線索皆來 自於音色 (timbre)特徵。本論文所提出之辨識系統,除了考慮音色特徵參數外,更加上音 高 (pitch )特徵參數。實驗結果發現將這兩種特徵參數進行結合後可有效提升鳥鳴聲辨識 正確率。 207 本論文的章節組織如下:第二章描述辨識系統架構;第三章說明音色特徵參數擷取 及 統計模型;第四章描述音高特徵參數擷取及統計模型;第五章結合音色與音高 特徵來 設計 辨識系統;第六章將說明本研究所使用的鳥鳴聲資料庫並呈現實驗結果;第六章進 行本研究之總結 。 2. 辨識系統架構 本論文所提出的辨識系統如圖1 。我們可將其分成三個單元,分別是「音色 分析」、 「音高分析」、與「整合決策」。各單元皆包含兩種操作模式,一為訓練、另一為測詴, 簡介如下: (1) 音色分析 此單元目標是擷取各種鳥之鳴聲的音色特徵,並表示為統計模型,以便識別未知鳥 鳴聲。 (2) 音高分析 此單元目標是擷取各種鳥之鳴聲的音高特徵,並表示為統計模型,以便識別未知鳥

相关知识

应用语音辨识技术於鸟鸣声辨识.PDF
电子宠物影像辨识喂食系统及影像辨识喂食方法与流程
基于虚拟现实的鸟鸣声辨识训练
动物声音辨识游戏锻炼幼儿听觉辨识和记忆力
动物声音辨识助力生态保护研究.docx
宠物品种辨识:解开您的宠物之谜
宠物年龄自动辨识学习赛
金钱龟的选购与辨识要点
动物的声音:培养孩子们对动物声音的辨识能力
请问各位专家,以目前语音识别技术而言,可以精准识别出动物的声音吗?比如猫狗,猪马的声音。?

网址: 应用语音辨识技术於鸟鸣声辨识.PDF https://www.mcbbbk.com/newsview1310876.html

所属分类:萌宠日常
上一篇: 一种基于注意力机制的鸟类声音识别
下一篇: 宠智灵宠物声音识别:AI解码宠物

推荐分享