第十九卷 第七期 - 2011年九月九日 PDF
Counter
可改進簡易貝氏分類器效能的先驗分配假設
國立成功大學管理學院資訊管理研究所副教授
 
字體放大
易貝氏分類器是一廣為使用的分類器,主要是因為其運算速度快,且分類的正確率與大多數現行使用的分類器差不多,有時候甚至有較好的分類正確率。簡易貝氏分類器的運作過程中有二個主要的假設,一個是當類別值已知時,各屬性彼此之間互相獨立,這個假設稱之為條件獨立的假設,已有研究指出這個條件獨立的假設對於簡易貝氏分類器的正確率不會造成太大的影響,其主要原因是分類正確率的估計是採用0-1損失函數,即分類正確時損失為0而分類錯誤時損失為1;第二個假設是在給定某類別值時,任一屬性出現各個可能值的機率所形成的隨機向量要服從狄氏分配,此稱之為狄氏假設,這樣的假設使得在估計分類所需的各項數值時,其計算較為簡易快速且可減少分類錯誤的機率,但一隨機向量中的各變數需滿足二項要求:各變數間必須為負相關且各變數有相同的正規化變異數,才適合假設此隨機向量服從狄氏分配,這二項要求分別稱之為負相關要求和同信心要求,而本研究旨在探討狄氏假設對簡易貝氏分類器分類效能的影響。

簡易貝氏分類器在運作時,根據上述的條件獨立假設和狄氏假設,來計算一筆新的資料會屬於各個類別值的機率,然後看屬於那個類別值的機率值最高,即將該類別值設定為這筆新資料的類別預測值。在計算這些分類所需的機率時,會先在給定某一類別值時,假設單一屬性各個可能值出現的機率所形成的隨機向量,會服從狄氏分配,此即為狄氏假設,然後進行貝氏分析,即用學習資料來修正原先所設定各屬性的狄氏分配,而這些修正過後的狄氏分配便會提供計算分類機率所需要各項數值的估計值,因此這個狄氏假設對於分類正確率的高低具有相當大的影響力。

組合資料是指各個值均不可以小於零且各個值的總和不可超過一,例如市場佔有率或是機率值都具備這樣的性質,處理這類型資料的工作就稱之為組合資料分析。在進行組合資料的貝氏分析時,狄氏分配是最被為廣為使用的多變量機率分配,其主要原因是狄氏分配的各個動差計算相當簡易快速,變數間的順序可任意更換,而且與多項分佈具有共軛性質,即貝氏分析時先驗分配和事後分配是同一種型態的機率分配,本研究為了探討狄氏假設對簡易貝氏分類器的影響,使用了另二個較狄氏分配更一般化的多變量機率分配:羅氏分配和廣義狄氏分配,其中羅氏分配可讓變數間全部是正相關或全部是負相關,因此可以放寬狄氏分配的負相關要求,但無法放寬同信心要求;而廣義狄氏分配不僅可以放寬負相關的要求,亦能放寬同信心要求,由於這二個分配可放寬狄氏分配的某些要求,而且與多項分佈亦具有共軛性質,所以都適合用來取代狄氏分配成為各屬性所需的先驗分配,另外在特定的條件下,這二個機率分配都可退化成狄氏分配,但這二個機率分配各個動差的計算稍為比狄氏分配要來得複雜。

簡易貝氏分類器所使用的先驗分配具備有二個特質,一個是先驗分配需為無資訊性的,即一個屬性中各個可能值的發生機率都相等,其目的是為了增加使用上的方便性,另一個是對先驗分配的信心水準必須是低的,以便能讓分類結果主要取決於資料,因此本研究一開始先各設計了三十個無資訊且低信心的羅氏和廣義狄氏先驗分配,其中有些是允許變數間為正相關,有些是變數間具有不同的信心水準,以便能測試出狄氏分配的負相關要求和同信心要求對簡易貝氏分類器所造成的影響。這總計六十個無資訊且低信心的先驗分配,選用了網路上資料庫中的十八個實務資料檔來進行測試,在整個測試中發現,廣義狄氏分配在這三種機率分配中大都能有最佳的分類表現,而羅氏分配整體而言則是表現最差的,其主要原因是因為廣義狄氏分配在調控變數間的正負相關性和正規化變異數上較具有彈性;但若要求所有的變數都呈現正相關,在變數不可為負值且總和不可超過一的限制下,大多數的屬性都不適合做全部都是正相關的設定,因此造成羅氏分配的分類正確率反而不如狄氏分配的分類正確率。由於不同的狄氏、羅氏和廣義狄氏先驗分配都是低信心的,因此對於整個分類結果不會造成太大的影響,所以雖然整體而言是廣義狄氏分配比狄氏分配好,而狄氏分配又比羅氏分配好,但所得的分類正確率差距並不顯著。

由於當先驗分配為無資訊且低信心時,不同類型的先驗分配所導致的分類差距並不顯著,無法完全瞭解狄氏假設對簡易貝氏分類器在運作時所造成影響,所以本研究進一步設計無資訊但可為高信心的狄氏、羅氏和廣義狄氏先驗分配,並從低信心的先驗分配開始,逐步提高先驗分配的信心水準,以找到各類型先驗分配的最佳參數組合,及其相對的最佳分類正確率,希望藉由比較所找到各類型最佳先驗分配和其所產生的分類正確率,可以明瞭狄氏假設對簡易貝氏分類器的影響。當信心水準太高,使得分類結果不再取決於資料時,由於先驗分配均是無資訊性的,亦即假設在給定類別值時,一屬性出現各個可能值的機率均相等,這顯然與實際要進行正確分類會有所衝突,因此當先驗分配的信心水準過高時,會使得分類的正確率開始往下降,這表示只要搜尋有限的先驗分配,即可找到各類型先驗分配的最佳參數組合。

同樣的經由十八個實際資料檔的測試後,分別找到了各類型最佳先驗分配的參數組合,及其所對應的分類正確率,發現廣義狄氏分配在十八個資料檔中,有十七個資料檔所得到的最佳分類正確率,比最佳的狄氏分配所得到的分類正確率還要來得高,只有一個資料檔是這二種先驗分配不分軒輊;另外最佳廣義狄氏分配在十六個資料檔中表現的比最佳羅氏分配來得好,只在二個資料檔和最佳羅氏分配的表現不相上下,由此可知廣義狄氏分配是三種機率分配中表現最好的,甚至在三個資料檔中,最佳廣義狄氏分配的分類正確率可比最佳狄氏分配和最佳羅氏分配的分類正確高出超過三個百分點。

再分析所得到的十八個最佳羅氏分配後,發現除了一個最佳羅氏分配是所有變數皆為正相關外,其它的十七個均是變數間為負相關,而唯一的一個正相關之最佳羅氏分配,其共變異數也非常接近零,代表說大多數實務的資料檔並不適合使用變數間皆為正相關的羅氏分配為其先驗分配。而在十八個最佳的廣義狄氏分配中,有十六個分配之變數間存在著正相關的關係,表示較適合簡易貝氏分類器的先驗分配,應允許變數間可以有正相關的關係存在;另外從十八個最佳廣義狄氏分配的變數之正規化共變異數可以發現,最大和最小共變異數的比值介於四和卅二之間,這表示一先驗分配若允許變數間有不同的正規化共變異數,對於分類正確率的提升會有所助益,因此根據這樣的實驗結果說明廣義狄氏分配是這三種機率分配中,最適合用來做為各屬性先驗分配的機率分配,這是因為廣義狄氏分配同時放寬了狄氏分配的負相關要求和同信心要求,所以狄氏假設確實限制了簡易貝氏分類器運作效能的改善空間。
< 上一篇
下一篇 >
Copyright National Cheng Kung University