2数据预处理方法
数据预处理作为提高数据质量的关键步骤,其重要性主要表现在以下几个方面:
(1)ITs系统产生大量的实时数据,用传统人工剔除和筛选的方法很难达到令人满意的
效果;
(2)持续长时间的工作条件和环境使得各种交通检测设备出现错误和故障的几率大大增
(3)不同的系统和用户对数据质量和精度的要求不同,需要针对实时交通数据采取不同
的预处理方法
所以,数据预处理可以改进数据质量,从而有助于提高动态交通信息系统数据挖掘的精度和性能。根据统计,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅占总工作量的10%左右3。数据预处理主要包括数据清理、集成和归约。数据清理是处理数据中的遗漏和清洗脏数据,数据集成将多数据源中的数据进行合并处理,解决语义模糊性并整合成一致的数据存储,数据归约将辨别出需要挖掘的数据集合,缩小处理范围。
根据图1所示的动态交通信息系统数据流,本文的主要工作主要集中在数据清理上,数据
清理主要处理空缺值(丢失数据),平滑噪声数据(可疑数据),方法和过程简介如下4
(1)空缺值的处理方法
是忽略该数据;二是人工填写空值,该方法很费时,并且当数据集很大、缺少很多值时,该方法可能性不大;三是使用一个全局常量填充空缺值,将空缺属性值用同一个常数替换;四是使用属性的平均值填充空缺值;五是使用与给定数据同一类的所有样本的平均值;六是使用最多可能的值填充空缺数据,可以用回归分析、判定树等方法来预测具有同一属性的空缺值,
由于使用现有数据的多数信息推测空缺值,更大机会地保持了属性间的联系。
本文根据实际数据特点,采用第六种方法进行空缺值即丢失数据的处理,方法描述如下:
设y(t)表示实测数据,y(t)表示补充值,则历史数据补充方法为
y(t)=[y(t-1)+y(t+1)]/
实时数据的补充方法为
y(t)=[y(t-n)+y(t-n-1)+…+y(t-1)]/n
其中,n为取样点数。
(2)噪声数据的清理方法
噪声是一个测量变量中的随机错误或偏差。对于噪声数据,有以下几种处理方法:
①分箱:将存储的值分布到一些箱中,用箱中的数据值来局部平滑存储数据的值,具体可
以采用按箱平均值平滑、按箱中值平滑和按箱边界平滑;
②回归;可以找到恰当的回归函数来平滑数据,线性回归要找出适合两个变量的“最佳”