壓縮域魯棒音樂識別算法研究.pdf_第1頁
已閱讀1頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)字化的音樂伴隨著互聯(lián)網(wǎng)的飛速發(fā)展已經(jīng)成為音樂存儲的主流媒體,并且數(shù)量龐大,按照傳統(tǒng)人工的檢索和識別音樂,已經(jīng)變得非常困難,并且也不能滿足人們對檢索方式要求。而數(shù)字指紋作為音頻信息檢索的一種自動化方式迅速成為了工業(yè)界和學(xué)術(shù)界研究的熱點。數(shù)字音頻指紋是指可以代表一段音樂重要聲學(xué)特征的基于內(nèi)容的緊致數(shù)字簽名,主要目的是建立一種有效機制來比較兩個音頻文件的感知聽覺質(zhì)量,可用廣泛的應(yīng)用在在音頻識別、檢索,內(nèi)容完整性校驗等實際場景。雖然MP3已經(jīng)

2、成為最常見的數(shù)字音樂存儲和傳輸格式,但是絕大多數(shù)已發(fā)表的數(shù)字音頻指紋算法仍是基于非壓縮域如WAV格式的音頻特征,直接作用在壓縮域上的算法尚不多見,且效果一般。
  在本文介紹了音頻指紋系統(tǒng)的基本知識,應(yīng)用場景,大致系統(tǒng)框架和主流算法。講解了壓縮域內(nèi)的基本知識及其研究情況。在此之上,我們提出了兩大類壓縮域音頻指紋算法,并給出了實驗原理和結(jié)果。
  第一類算法使用的特征為壓縮域內(nèi)頻譜熵,該特征主要利用了壓縮域內(nèi)系數(shù)頻譜熵的統(tǒng)計特

3、性,使得指紋具有較好的穩(wěn)定性。使得原始片段受到處理后,也不會破壞這種統(tǒng)計特性,這樣算出的特征依然保留著較強的穩(wěn)定性。
  第二類算法用到的特征是壓縮域內(nèi)系數(shù)的低階Zemike矩。算法大致過程是使用壓縮域內(nèi)的MDCT系數(shù)構(gòu)成“偽圖片”,計算“偽圖片”的低Zemike價矩。而計算Zernike矩的過程是將原始數(shù)據(jù)進行正交分解的過程,依據(jù)Zernike矩的理論特性和實驗證實,高階矩代表了信號的細節(jié)分量,容易受到信號處理的影響,而低階矩則

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論