
數據預處理的方法:
1、墓于粗糙集( Rough Set)理論的約簡方法,粗糙集理論是一種研究不精確、不確定性知識的數學工具 。現在受到了KDD的廣泛重視,利用粗糙集理論對數據進行處理是一種十分有效的精簡數據維數的方法 。
2、基于概念樹的數據濃縮方法 , 在數據庫中,許多屬性都是可以進行數據歸類,各屬性值和概念依據抽象程度不同可以構成一個層次結構,概念的這種層次結構通常稱為概念樹 。概念樹一般由領域專家提供,它將各個層次的概念按一般到特殊的順序排列 。
3、信息論思想和普化知識發現,特征知識和分類知識是普化知識的兩種主要形式,其算法基本上可以分為兩類:數據立方方法和面向屬性歸納方法 。
【數據預處理的方法 數據預處理的方法和內容】4、基于統計分析的屬性選取方法,可以采用統計分析中的一些算法來進行特征屬性的選?。?比如主成分分析、逐步回歸分析、公共因素模型分析等 。這些方法的共同特征是,用少量的特征元組去描述高維的原始知識基 。
