人臉辨識眾所皆知是一種可應用於建立高性能監視或安全系統的關鍵技術[1][2][3][4]。根據隱藏式馬可夫模型(HMM)為基礎的人臉辨識系統[3]已經被成功的開發出來。一般來說,HMM可以有效的代表如語音資料等時間數列信號,它也可以被延伸至二維(2D)的人臉影像訊號和模型化空間上如臉部的表情、方向等等變異。圖一顯示以嵌入式HMM模型表示人臉影像中不同的臉部特徵示意圖。
在這個研究中我們考慮二個議題來建立HMM的人臉辨識系統。第一是引入特徵擷取和模型估算的混合程序。第二是發展一個以統計假說檢定理論為主的鑑別式訓練準則。透過最大化信賴度函式,並接受影像區塊是從目標HMM狀態生成而非從競爭HMM狀態生成的假說,
圖一 以嵌入式HMM模型表示人臉影像
根據此最佳信賴(Maximum Confidence,
MC)準則估測出MC-HMM模型參數和特徵轉換矩陣W,以實現鑑別式人臉辨識系統。在辨識階段,我們提出雙層式Viterbi分割法來得到最佳的HMM狀態序列和混合成分序列。MC-HMM估計程序的實現如圖二所表示。初始的HMM參數被估計出來並將輸入的人臉影像通過Viterbi演算法分割並求得每個影像區塊的超級狀態(super
states)和嵌入狀態(embedded
states)。有了最佳的狀態和混合成分序列,我們可計算出相對應於超級狀態和嵌入狀態的HMM參數,然後再計算出特徵參數之轉換矩陣。MC-HMM訓練程序可以在若干個訓練回合後收斂。
圖二
最佳信賴隱藏式馬可夫模型之訓練程序
在實驗中我們使用ML-HMM和MC-HMM來比較FERET人臉影像[4]經由Viterbi演算法分割出來的狀態排列結果。最大相似度(Maximum
Likelihood,
ML)的HMM模型(ML-HMM)被用來當成基準模型。在這個比較中我們考慮MC-HMM模型中的特徵維度從36減少到16。一般來說,HMM狀態在影像資料中代表空間特徵,因此如果HMM參數被訓練得好,狀態的分割將會是完美的。如圖三所顯示,使用MC-HMM的狀態分割比使用ML-HMM來得好。MC-HMM使用較少的特徵維度也可獲得相當好的人臉影像分割,不但可以透過超級狀態描述好垂直的人臉影像區段也可透過嵌入狀態來描述好水平方向的微小紋理。
圖三 使用ML-HMM (上列)和MC-HMM
(下列)所實現的FERET人臉影像分割
除ML-HMM和MC-HMM之外,我們也驗證公認是最重要的鑑別式訓練法:
圖四 不同的特徵維度和類別數的辨識準確率
最小化分類錯誤(Minimize classification
error, MCE)
MCE-HMM模型的辨識表現。為了做較客觀的比較,Eigenface和Fisherface[1]等非HMM(non-HMM)的方法實現出來。人臉的類別則分別為C=50和C=100兩種設定。如圖四所顯示,HMM方法的辨識率顯然要比非HMM方法的辨識率來得好。MCE-HMM和MC-HMM則勝過ML-HMM且MC-HMM有最佳的分類表現。舉類別數C=50,特徵維度d=16為例,ML-HMM可獲得89%的準確率,使用MCE-HMM為92.4%而使用MC-HMM則可以改進到94.4%。當MC-HMM在特徵維度d=36準確率則達到95.6%。Eigenface和Fisherface在此設定下則分別只獲得80%和81.3%的準確率。在類別個數C=100的設定時也可以獲得相似的結果。
References:
- P. N. Belhumeur, J. P. Hespanha and D. J. Kriegman,
“Eigenfaces vs. fisherfaces: recognition using class specific
linear projection”, IEEE Transactions on Pattern Analysis and
Machine Intelligence, vol. 19, no. 7, pp. 711-720, 1997.
- J.-T. Chien and C.-C. Wu, “Discriminant waveletfaces and
nearest feature classifiers for face recognition”, IEEE
Transactions on Pattern Analysis and Machine Intelligence,
vol. 24, no. 12, pp. 1644-1649, 2002.
- A. V. Nefian and M. H. Hayes III, “An embedded HMM-based
approach for face detection and recognition”, in Proc. of
International Conference on Acoustics, Speech and Signal
Processing, vol. 6, pp. 3553-3556, 1999.
- P. J. Phillips, H. Wechsler, J. Huang and P. J. Rauss, “The
FERET database and evaluation procedure for face-recognition
algorithms”, Image and Vision Computing, vol. 16, no. 5,
pp. 295-306, 1998.