数据集的一般特性:
维度 (具有的属性数目)
稀疏性(在非对称特征数据集,一个对象大部分属性上的值为0)
分辨率(分辨率太高,模式可能看不清楚,分辨率太低可能模式不出现)
数据集类型
1 记录数据 (记录之间或数据字段之间没有明显的联系,并且每个记录(对象)有相同的属性集)
事务数据或购物篮数据
数据矩阵
稀疏数据矩阵
2 基于图形的数据
图形捕获数据对象之间的联系
数据本身用图形表示
3 有序的数据
时序数据
序列数据(核苷酸序列)
时间序列数据(股票数据)
空间数据
大部分数据挖掘算法是为记录数据或其变体(如事务数据和数据矩阵)设计的