高潮挑歌 自動剪輯出流行歌曲的副歌(高潮)部分

2021-08-22 14:45:21 字數 798 閱讀 7414

這應該是我在2023年6月份完成的乙個小專案。

在這個資訊**的時代,資料壓縮和資訊檢索早已成為一項非常重要的工作。文字的壓縮和檢索已經具備非常成熟的技術了,而音訊等多**資訊檢索方面還有待進一步的研究。一方面可以是資料量的壓縮,比如想辦法把資料從10 mb壓縮到3 mb。另一方面是對內容方面的剪輯,比方說從一首4分鐘的歌裡面提取出30秒作為它「最具表現力」的部分,而這種「最具表現力」的部分,通常指的就是一首歌曲的「副歌」部分,即歌曲的高潮部分,因為副歌往往是大家朗朗上口的片段。如果能從一首歌曲中截取出它的副歌部分,聽眾在很短的時間內,就可以從直觀上,從感官上對這首歌作出一些評價。應用場景可以是在具有版權保護的**公司給聽眾一段試聽的曲目,或是讓聽眾在ktv中直接選擇歌唱副歌的部分,也可以是讓聽眾在段時間內挑出符合他自己口味的歌曲。

本專案利用訊號處理、時頻分析、特徵提取、影象卷積等技術,實現了從一首流行歌曲中,挑選出它的副歌部分的功能。

思想是,副歌部分的旋律會重複,如果能找到重複的旋律,基本上就找到了歌曲的副歌部分。

具體流程是,對一維的音訊訊號進行短時傅利葉變換,得到時頻分析的二維矩陣,通過計算每幀與其他幀的相似程度,構造乙個自相似矩陣。再利用影象處理的卷積運算,對該自相似矩陣做線條檢測,最終確定出副歌的位置。

左圖:自相似矩陣;右圖:線條檢測的結果。

框出來的地方,就是最相思的地方。

可以看到,這首歌曲的第500幀~第800幀,與它的第100幀與第400幀很相似。

可以認為,這是該歌曲的副歌部分。