手語識別和翻譯

摘要：為了使聾啞人與更多不懂手語的人自然地交流，本作品將手語翻譯成文字和語音，利用microsoftkinect記錄手語手勢的三維座標，通過機器學習和優化演算法，在intelatom平台上實現了手語翻譯。

簡介

手語是聾啞人士的主要溝通工具，它是利用手部和身體的動作來傳達意義。雖然手語幫助它的使用者之間互相溝通，但聾啞人士與一般人的溝通卻十分困難，這個溝通障礙是源於大部分人不懂得手語。

另一方面，聾啞小朋友由於很難表達自己，以及中國的聾啞教師數量有限，導致他們的學習出現困難，得不到和普通小朋友同等的學習機會。

為了解決這個問題，我們設計實現了乙個從手語動作翻譯成文字和聲音的翻譯器，令學習手語更有趣、更方便、更容易，以達到這個專案縮少聾啞人士與其他人的溝通障礙的目的。工作原理和演算法

特徵提取

深度影象的解析度是640x480，意味著每秒鐘的資料有17.6mb，儲存如此大量的資料是不可能的。同時許多沒有用處的資料(例如背景)都包含在原始資料中。因此我們必須從原始資料中提取出有用的資訊。骨架是一種可以用來表示手語的有用資訊。

我們利用kinect和openni提取使用者的骨架節點得到xyz三點的座標。我們一共提取了6個骨架節點，左手、左手肘、左肩、右手、右手肘、右肩。對於每一幀，我們從這些節點中計算出14個特徵向量來表示這一幀的手語動作。經過標準化計算，我們用121幀來表示乙個手語詞語，因此每乙個詞語有1694個特徵。

原始資料標準化

我們通過均勻分配和插值使原始資料標準化。通過二次插值法，利用最相近的三個原始資料計算出標準化的資料，使得每乙個手語動作都統一用121幀來表示。

支援向量機

svm(支援向量機)是統計學和電腦科學中的概念，簡而言之，給定一組已經分好類別的資料，而且分類依據是未知的，支援向量機訓練演算法可以通過計算構建乙個模型，一組新的資料到來時可以**出新的資料屬於哪乙個類別。

svm的模型將所有資料映像到乙個高維空間裡，並計算出不同類別資料之間的最大化幾何邊緣區，然後把新的資料對映到同乙個空間，根據之前計算出的最大化幾何邊緣區來**新的資料屬於哪乙個類別。

平台限制與解決方法

平台限制

使用kinect的建議系統需求是cpu有雙核2.66ghz或以上，記憶體有2gb或以上，但intel提供的平台只有分別1ghzcpu和1g記憶體，明顯與系統需求有差異。

即使我們使用linux作業系統，處理器使用率依舊滿載，並且幀率只有大約2到4左右，遠少於正常的30幀。在這種條件下，再加上處理器資源已被提取資源的執行緒佔據，所以不可能在處理器裡進行資料分析的工作。

瓶頸

為了找出瓶頸，我們首先關閉了影象使用者介面。雖然處理器使用率降至85%，但幀率跟之前的一樣。我們觀察得到其中乙個openni控制的執行緒依然是占領了整個執行緒。只是由於所提供的平台是雙線程的關係，使用率分別被定在50%及35%。