《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例 …… [ 展开全部 ]
  • 作者:"卢辉"
  • 出版社:机械工业出版社
  • 定价:59.00元
  • ISBN:9787111426509
  • 2018-04-08 16:03:33 摘录
    基本的数据分析方法论就是:做假设、定标准、做比较、看趋势、观全局、辨真伪、下结论。
    这条书摘已被收藏0
  • 2018-04-08 16:02:22 摘录
    见秋毫之务,不自见其睫,举千钧之重者,不自举其身。犹学者明于责人,昧于恕己者,不少异也。 《禅林宝训》
    这条书摘已被收藏0
  • 2018-04-08 15:52:19 摘录
    常见的识别共线性的方法如下:
    口相关系数的方法。最常见的就是皮尔逊相关系数( Pearson Correlation)
    口通过模型结论的观察。比如,在回归模型中,如果回归系数的标准差过大,就可能意味着变量之间存在着共线性问题。
    口主成分分析方法。比如,第一主成分中,某几个原始变量的主成分载荷系数较大,且数值相近,就有可能在其中隐藏着共线性问题。
    口根据业务经验判断的原本应该没有预测作用的变量突然变得有很强的统计性,那其中就有可能隐藏着共线性问题。
    口对变量进行聚类。通过对区间型变量进行聚类,同一类中的变量之间具有较强的相似性,也就可能隐藏着共线性问题。
    这条书摘已被收藏0
  • 2018-04-08 15:46:03 摘录
    考察稳定性最好的办法就是抽取另外一个时间段(时间窗口)的数据,最好是最新时间的数据,通过模型对这些新数据、新对象进行预测(打分),然后与实际情况进行比较,并且跟模型在测试集和验证集里的表现相比较,看模型是否稳定,其效果衰减的幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较,多比较、多测试才有说服力。
    这条书摘已被收藏0
  • 2018-04-08 15:29:02 摘录
    对于本项目来说已经无法回滚所需的真实数据了,对这些数据我们采取直接删除的措施。
    通过输入变量之间的相关性分析,找出潜在共线性问题的相关输入变量,对于高度线性相关的变量只保留一个。
    针对类似的严重不符合逻辑的数据问题,要提请数据仓库重新回滚数据,直到数据正确为止。
    这条书摘已被收藏0
  • 2017-08-02 15:46:58 摘录
    RFM里的每个维度进行单独分析和总结
    我们就可以清楚地总结出产品和业务的些核心现状结论。比如,90%的公司客户在至少5个月的时间里没有购买公司产品,
    85%的公司客户最近1年内购买公司产品
    的次数小于等于2次,80%的客户在最近
    1年内的消费金额低于50元。如果这些总
    结的数据是来自一家快速消费品行业,那
    么就说明这家企业的优质客户太少,忠诚
    客户太少,企业的经营前景不妙。
    这条书摘已被收藏0
  • 2017-07-17 16:14:54 摘录
    活跃度定义,可以发现其中是有一些
    固定的骨架作为基础和核心的。其中最重
    要、最常见的两个基本点如下。
    1)活跃度的组成指标应该是该业务
    场景中最核心的行为因素
    2)衡量活跃度的定义合适与否的重要判断依据是其能否有效回答业务需求的
    终极目标。
    下面我们用具体的案例来解释上述两
    个基本点。
    案例:PM产品是一款在线的SAAS产品,其用途在于协助卖家实时捕捉买家访问店铺的情况,并且通过该PM产品可以实现跟买家对话、交换联系方式等功能。作为PM产品的运营方,其运营策略是向所有平台的卖家免费提供PM产品的基本功能(每天只能联系一位到访的买家,也即限制了联系多位到访买家的功能)、向部分优质卖家提供一定期限内免费的PM产品全功能(这部分优质卖家免费获赠PM产品,可以享受跟付费一样的全功能)、向目标卖家在线售卖PM产品。
    经过一段时间的运营,现在管理层需要数据分析团队定义一个合理的“PM产品用户活跃度”,使得满足一定活跃度分值的用户能比较容易转化成为PM产品的付费用户,同时这个合适的定义还可以帮助有效监控每天PM产品的运营效果和效率
    根据上面的案例背景描述,以及之前
    的活跃度定义的两个基本点来看,在本案例中,该业务场景中最核心的行为因素就
    是卖家使用该PM产品与到访买家的洽谈
    动作(表现形式为洽谈的次数)、在线登
    录该PM产品的登录次数等。而该分析需
    求的终极目的就是促成付费用户的转化,
    所以项目最终活跃度的定义是否合适,是
    否满足业务需求,一个最重要的评估依据
    就是按照该活跃度定义出来的活跃用户群体里,可以覆盖多少实际的PM产品付费用户。从理论上来说,覆盖率越高越好,如果覆盖率不高,比如,实际付费用户群体里只有50%包含在活跃度定义的活跃群体里,那么这个活跃度的定义是不能满足
    当初的业务需求的,也就是说这是一个不成功的定义。

    活跃度的定义所涉及的统计技术主要 标注 有两个,一个是主成分分析,另一个是数 据的标准化。其中,主成分分析的目的 就是把多个核心行为指标转化为一个或少 数几个主成分,并最终转化成一个综合的 分数,来作为活跃度的定义,到底是取第 个主成分,还是前两个或前三个,这要取决于主成分分析的特征根和累计方差贡 献率,一般来说,如果前面几个特征根的 累计方差贡献率达到80%以上,就可以基 本认为前面几个主成分就可以相应地代表 原始数据的大部分信息了;至于数据标准 化技术得到了普遍采用,主要是因为不同 的指标有不同的度量尺度,只有在标准化 之后,才可以将数据按照比例进行缩放, 使之落入一个小的区间范围之内,这样 不同变量经过标准化处理后就可以有平等 的分析和比较基础了。
    这条书摘已被收藏0