第二十三卷 第七期 - 2013年三月二十二日 PDF
Counter
整合約略集合與多重特徵探勘之推薦方法
蘇家輝、王博文、蕭欽元、曾新穆*
國立成功大學電機資訊學院資訊工程學系
 
字體放大
研究以整合約略集合方法為基礎,整合協同過濾資訊與內涵資訊的推薦方法,透過統計分析的方法及利用約略集合演算法的預測方式,以統計中標準差的大小作為門檻值的設定,以動態調整的方式將兩種方法作結合,有效的提升使用者評分預測的準確度,進而幫助使用者從大量的資料中找出真正想要或感興趣的資料。

上述以約略集合論為基礎之協同過濾推薦技術(Fusion of Rough-Set and Average category rating,FRSA),其主要流程的重點如下:
(1)資料前置處理:將使用者的消費紀錄整理成消費紀錄表(Transaction Table),將每一筆的消費紀錄結合使用者的個性資料以及商品的特性資料產生出完整的消費紀錄(Transaction)以提昇資料的完整與豐富性。
(2)關聯規則之建立:從消費紀錄表中利用資料探勘技術找出關聯規則,找出的關聯規則是以考慮到推薦的應用方式挑選出適合的規則,進而應用到之後的推薦技術中。
(3)預測推薦商品之滿意程度:針對使用者以及需要預測的商品,利用之前的關聯規則先產生第一步簡易的預測值,接著判斷使用者對商品的評分行為是否有較高的一致性,若有,則利用商品類別平均評分(ModelACR)計算出預測值;若沒有,則以約略集合方法(ModelRS)並結合協同過濾推薦的資訊對商品作出準確的預測值。
評分行為標準差的計算公式如下:



其中N 為此類別商品的所有已評分之資料筆數,xi為使用者對此類別商品i的評分。若標準差太大則以商品類別平均評分結果為準,否則預測之結果就以約略集合方法為準方法的定義如下:



圖一顯示:當αthreshold定在0.6~1左右時,ModelRS在MAE (Mean Absolute Error)值上的表現甚至能低於0.7,但在αthreshold為0.6以前時的MAE值表現則差於ModelACR,這同時呼應了我們在前面以αthreshold為主的混合方式時,以0.5的混合結果為最佳,可能的原因目前我們推測是ModelACR本身的概念就是希望當使用者在評分行為上表現的一致性為基礎,因此αthreshold愈低表示使用者本身評分的行為越一致,ModelACR的MAE值表現可以預期的是會越好,但在ModelRS的結果中,我們發現使用者的評分行為通常在評分較少的時候一致性相對較高,但也因此可能使得ModelRS在找相關元素集合上較為困難,另一原因是αthreshold在0.4左右時所能測試的資料太少,因此準確度較差,而到0.5以上時則因為測試資料較為充足因此表現就能有不錯的水準。
圖一:不同αthreshold下的測試資料對MAE的實驗結果。

如圖二所示,我們可以發現不論是分類的方法、或以機率為主的方法在準確度的表現上均劣於以KNN為主的幾項方法,而在其中關聯規則為主的AR方法則在表現上為最差的結果,事實上我們也可以發現在分類中一般對數值資料的處理上認定為有最佳表現的SVM確實有優於其他方法的表現準確度接近0.85,而其他方法主要都在0.9左右;在以機率為主的各項方法中,則以HMM的結果為最佳,不過基本上差距並不太大準確度均在0.9附近;最後,以KNN為主的方法則都在0.75~0.8左右,IB的結果略微優於UB的結果,整體來說RS的表現則遠遠優於其他各方法,準確度的表現大約在0.74左右。
圖二:各基本方法之實驗分析。

如圖三所示, 混合模型FRSAswi的結果比較FRSAwei能有顯著的提升,MAE的值差不多能降到0.72左右。
圖三:各方法與ModelACR之混合實驗分析。

未來可透過機器學習的方,進一步發展出自動化的參數調整的方法,以求得最佳結果。
< 上一篇
下一篇 >
Copyright National Cheng Kung University