此书摘本创建于:2016-05-05
数据挖掘与数据化运营实战
《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案 …… [ 展开全部 ]
- 作者:"卢辉"
- 出版社:机械工业出版社
- 定价:59.00元
- ISBN:9787111426509
-
基本的数据分析方法论就是:做假设、定标准、做比较、看趋势、观全局、辨真伪、下结论。
-
见秋毫之务,不自见其睫,举千钧之重者,不自举其身。犹学者明于责人,昧于恕己者,不少异也。 《禅林宝训》
-
常见的识别共线性的方法如下:
口相关系数的方法。最常见的就是皮尔逊相关系数( Pearson Correlation)
口通过模型结论的观察。比如,在回归模型中,如果回归系数的标准差过大,就可能意味着变量之间存在着共线性问题。
口主成分分析方法。比如,第一主成分中,某几个原始变量的主成分载荷系数较大,且数值相近,就有可能在其中隐藏着共线性问题。
口根据业务经验判断的原本应该没有预测作用的变量突然变得有很强的统计性,那其中就有可能隐藏着共线性问题。
口对变量进行聚类。通过对区间型变量进行聚类,同一类中的变量之间具有较强的相似性,也就可能隐藏着共线性问题。 -
考察稳定性最好的办法就是抽取另外一个时间段(时间窗口)的数据,最好是最新时间的数据,通过模型对这些新数据、新对象进行预测(打分),然后与实际情况进行比较,并且跟模型在测试集和验证集里的表现相比较,看模型是否稳定,其效果衰减的幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较,多比较、多测试才有说服力。
-
对于本项目来说已经无法回滚所需的真实数据了,对这些数据我们采取直接删除的措施。
通过输入变量之间的相关性分析,找出潜在共线性问题的相关输入变量,对于高度线性相关的变量只保留一个。
针对类似的严重不符合逻辑的数据问题,要提请数据仓库重新回滚数据,直到数据正确为止。