h 264優化筆記

目前 h.264編解碼器的實現可以採用以下幾種方式

ø 採用奔騰 pentium 四代機實現 h.264 編譯碼最早就是在 pc 平台上實現

的由於簡單易開發基於該平台的研究得到最多 jvt 的 jm 參考**是就是基於 pc 平台的此方案的優點是利用當前最新的 pc 資源以及較強的軟體工具 intel 的 sse2 和 mmx 提供了較完整的多**指令集和流水線其缺點是占用資源多通用性不強不過隨著計算機發展速度越來越快有它的成本優勢

ø 採用 asic 實現美國 broadcom 公司發布了可對 h.264 編碼格式 hdtv 影像

進行解碼的 lsi bcm7411 2004 年 12 月國立台灣大學等發布能夠以 h.264方式對 hdtv 影像進行實時編碼的晶元其他廠商如科勝訊系統(conexantsystems) 意法半導體(st)和 sigma designs 等公司已經展開了激烈的競爭在國內芯華等企業也在進行 h.264 解碼晶元的研發此 asic 的優點是方便整合利於應用開發周期短但其缺點也很明顯無法靈活公升級和應用修改而且對特殊環境缺乏應變力

ø 採用多**數字訊號處理器 dsp digital signal processor 實現 equator公司的 bsp-15 philips 的 trimedia ti 的 dm642 都提供了極強大的多**流水線操作而且往往具有強大的多**介面開發包和必要資源也較多因此基於 dsp 平台的開發成為熱點 2004 年 ubvideo 公司和 ateme 公司陸續推出了基於 ti tms320c64*數字**平台的優化的 h.264 main profile編解碼器加拿大公司 cradle 推出了 30 幀/秒的 h.264 編解碼器該產品為全 cif 30fps h.264 標準下的首個商業應用它是基於 ct3400 dsp 陣列晶元的

實現平台blackfin533

其優點是集合多**與普通 mcu 的優勢較高的主頻較低的** 尤其適用於功耗小體積小速度快的網路攝像機和無線手持裝置中其缺點是具體開發的成本和週期可能較大而且由於本身介面不夠強大以及支援不夠有力開發難度和具體成本也高。

核心主要有以下特性:

blackfin dsp 體系結構在單週期內支援如下操作

ø 在兩個 mac 或兩個 alu 上執行一條單指令運算

ø 執行 2 x 32 位資料傳送(2 讀取或 1 讀 1 寫)

ø 執行兩指標更新

ø 執行硬體迴圈重新整理

bf533 ez-kit 是 adi 公司的評估板它為專案演示演算法** 原型製作和軟體優化提供了完整的平台板子上的主要器件有 adsp-bf533 處理器 160針 bga 封裝 27 mhz 晶振輸入 2mb flash(512k 16 2chips) sdram 32mb16m 16bits 模擬音頻接口模擬視頻接口 uart 擴展接口

d s p 系統配置與移植ez-kit 板子有 usb 和 hppci 兩種**形式由於 hppci 速度快通常採用該形式 jm 的參考**是基於 pc 的要移植到 dsp 平台上需要做系統配置和**

1. 資料的輸入輸出和配置檔案jm

參考**是以讀檔案的方式輸入影象資料檔案格式為 yuv 4 2 0編碼完成後碼流輸出到二進位制檔案中去編碼器可選項是通過檔案 encoder.cfg配置的 adi blackfin 支援標準的 io 庫支援讀寫檔案的操作但是通過**器從 pc 機上讀寫檔案速度比較慢尤其 vlc 後的碼流輸出十分頻繁那麼 dsp就會頻繁地在 supervisor 和 emulator 模式之間切換執行效率比較低下因此我們直接將原始影象資料填充到 sdram 中指定的位址碼流通過 dma 方式輸出到sdram 中指定的位址空間這其中必須實現影象的.yuv 檔案和 visualdsp++支援的.dat 檔案之間的相互轉換編碼器的配置資訊在程式中設定通過上述改動雖然沒有提高實際的編碼速度但是明顯地提高了整個程式的執行時間。

2 cache的配置

為了充分發揮 cache 的作用一方面應該恰當配置 cache 對映的儲存空間及其頁面屬性另一方面是優化**增加 cache 的命中率 **的優化的手段有把處理同一資料的函式儲存在一起合理組織資料結構增加資料復用等

3 c語言的優化

巨集的使用程式跳轉比較耗時，不是 dsp 所擅長的。在 h.264 的**中有些函式很短，執行單一的功能，被呼叫的次數很多把這些函式改為巨集，節省了大量的程式跳轉時間。

迴圈的優化函式盡量展開，尤其是最核心的部分，對多層的迴圈，內部迴圈的資源一定要用足同時迴圈體中的語句可以進行並行優化這樣就降低了整個迴圈體總的執行指令數量小的迴圈可以不要讓它迴圈另外還可以合併某些迴圈合併的前提是具有相同的迴圈次數並且迴圈體內資料的運算結果不會因為合併而改變它節省了每次迴圈建立的時間和迴圈內相同變數重複定址時間提高了輔助暫存器的使用率

計算**化可以盡可能把一些執行時計算的引數做成查詢的**常數數值。從而將執行時的計算轉化為編譯時的計算這不僅適用於一些比較規整的參數列對於一些並不規整的執行時計算特別是比較耗時的計算也要盡可能使其**化浮點數定點化 c 語言中既有整型數又有浮點數由於使用的定點 dsp 對浮點數的計算是非常耗時的因此在演算法允許的範圍內有必要把浮點運算改為定點運算。

減少判斷轉換

bf533 採用了 8 級流水線頻繁的轉移指令會使流水線難以發揮作用通過對程式流的分析許多判斷轉移可以用簡單的條件組合來實現。

降低陣列的維數

在 c 語言程式中對多維陣列的定址是非常耗時的因此在設計中應當盡量降低陣列的維數簡單的資料結構最好使用單層的資料結構這樣可以降低定址開銷又可以減少 bank 之間的衝突避免使用巢狀的結構體而採用單層的結構體即使結構體比較大也沒有關係。

盡量靜態分配記憶體指標不知道實際的位址在哪兒多級指標更加令 dag 困惑最好採用靜態分配將定址方式改為一維陣列全拿出來分配好記憶體並且利用一維定址是零開銷的這一特點比如對 qcif 影象 dct 變換單元為 4x 4 子塊那麼最好是採用一行行的順序一行用乙個指標來指位址每兩行進行一次修改對 yuv 影象來說一次可以取 32 位把四個點取進來。

4 組合語言的運用

雖然經過編譯器選項的優化和 c **的優化, 我們仍然希望進一步提高**的執行效率直接把關鍵模組改用匯程式設計序是最直接的辦法

用533存在的優缺點

h.264 演算法複雜 bf533 還存在片內記憶體較小和計算能力較差的缺點

h.264 還有問題亟待解決其一是位元速率控制演算法目前 h.264 還沒有乙個令人滿意的位元速率控制演算法這是因為 h.264 採用的 rd 模型和巨集塊級的位元速率控制演算法十分複雜其二是抗誤碼的問題在無線通道和internet 通道上如何保證可靠地傳輸資訊也是研究熱點另外如何在目前的硬體平台上實現實時通訊也是乙個挑戰。

h 264優化筆記

H 264效能優化

h 264 率失真優化

h 264 率失真優化

h 264優化筆記

H 264效能優化

h 264 率失真優化

h 264 率失真優化

相關推薦