App 下载
注册
登录
|
搜索
正在搜索中...
首页
我的书架
我的主页
我的收藏
我的书评
《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例
……
[ 展开全部 ]
和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供“菜单化”实战锦囊的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。 《数据挖掘与数据化运营实战:思路、方法、技巧与应用》共19章,分为三个部分:基础篇(第1~4章)系统介绍了数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的核心,以及实践中常见分析项目类型;实战篇(第6~13章)主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示;思想意识篇(第5章,第14~19章)主要是有关数据分析师的责任、意识、思维的培养和提升的总结和探索,以及一些有效的项目质控制度和经典的方法论介绍。 海报:
[ 收起 ]
作者:"卢辉"
出版社:机械工业出版社
定价:59.00元
ISBN:9787111426509
给个评价
做个书摘
书摘 (21 )
评价 (1 )
查看所有书摘
按目录显示书摘
淦秋士
2018-04-08 16:03:33 摘录
基本的数据分析方法论就是:做假设、定标准、做比较、看趋势、观全局、辨真伪、下结论。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
淦秋士
2018-04-08 16:02:22 摘录
见秋毫之务,不自见其睫,举千钧之重者,不自举其身。犹学者明于责人,昧于恕己者,不少异也。 《禅林宝训》
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
淦秋士
2018-04-08 15:52:19 摘录
常见的识别共线性的方法如下:
口相关系数的方法。最常见的就是皮尔逊相关系数( Pearson Correlation)
口通过模型结论的观察。比如,在回归模型中,如果回归系数的标准差过大,就可能意味着变量之间存在着共线性问题。
口主成分分析方法。比如,第一主成分中,某几个原始变量的主成分载荷系数较大,且数值相近,就有可能在其中隐藏着共线性问题。
口根据业务经验判断的原本应该没有预测作用的变量突然变得有很强的统计性,那其中就有可能隐藏着共线性问题。
口对变量进行聚类。通过对区间型变量进行聚类,同一类中的变量之间具有较强的相似性,也就可能隐藏着共线性问题。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
淦秋士
2018-04-08 15:46:03 摘录
考察稳定性最好的办法就是抽取另外一个时间段(时间窗口)的数据,最好是最新时间的数据,通过模型对这些新数据、新对象进行预测(打分),然后与实际情况进行比较,并且跟模型在测试集和验证集里的表现相比较,看模型是否稳定,其效果衰减的幅度是否可以接受,如果条件许可,最好用几个不同时间窗口的数据分别进行观察比较,多比较、多测试才有说服力。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
淦秋士
2018-04-08 15:29:02 摘录
对于本项目来说已经无法回滚所需的真实数据了,对这些数据我们采取直接删除的措施。
通过输入变量之间的相关性分析,找出潜在共线性问题的相关输入变量,对于高度线性相关的变量只保留一个。
针对类似的严重不符合逻辑的数据问题,要提请数据仓库重新回滚数据,直到数据正确为止。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
嘉҈殷҈
2017-08-02 15:46:58 摘录
RFM里的每个维度进行单独分析和总结
我们就可以清楚地总结出产品和业务的些核心现状结论。比如,90%的公司客户在至少5个月的时间里没有购买公司产品,
85%的公司客户最近1年内购买公司产品
的次数小于等于2次,80%的客户在最近
1年内的消费金额低于50元。如果这些总
结的数据是来自一家快速消费品行业,那
么就说明这家企业的优质客户太少,忠诚
客户太少,企业的经营前景不妙。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
嘉҈殷҈
2017-07-17 16:14:54 摘录
活跃度定义,可以发现其中是有一些
固定的骨架作为基础和核心的。其中最重
要、最常见的两个基本点如下。
1)活跃度的组成指标应该是该业务
场景中最核心的行为因素
2)衡量活跃度的定义合适与否的重要判断依据是其能否有效回答业务需求的
终极目标。
下面我们用具体的案例来解释上述两
个基本点。
案例:PM产品是一款在线的SAAS产品,其用途在于协助卖家实时捕捉买家访问店铺的情况,并且通过该PM产品可以实现跟买家对话、交换联系方式等功能。作为PM产品的运营方,其运营策略是向所有平台的卖家免费提供PM产品的基本功能(每天只能联系一位到访的买家,也即限制了联系多位到访买家的功能)、向部分优质卖家提供一定期限内免费的PM产品全功能(这部分优质卖家免费获赠PM产品,可以享受跟付费一样的全功能)、向目标卖家在线售卖PM产品。
经过一段时间的运营,现在管理层需要数据分析团队定义一个合理的“PM产品用户活跃度”,使得满足一定活跃度分值的用户能比较容易转化成为PM产品的付费用户,同时这个合适的定义还可以帮助有效监控每天PM产品的运营效果和效率
根据上面的案例背景描述,以及之前
的活跃度定义的两个基本点来看,在本案例中,该业务场景中最核心的行为因素就
是卖家使用该PM产品与到访买家的洽谈
动作(表现形式为洽谈的次数)、在线登
录该PM产品的登录次数等。而该分析需
求的终极目的就是促成付费用户的转化,
所以项目最终活跃度的定义是否合适,是
否满足业务需求,一个最重要的评估依据
就是按照该活跃度定义出来的活跃用户群体里,可以覆盖多少实际的PM产品付费用户。从理论上来说,覆盖率越高越好,如果覆盖率不高,比如,实际付费用户群体里只有50%包含在活跃度定义的活跃群体里,那么这个活跃度的定义是不能满足
当初的业务需求的,也就是说这是一个不成功的定义。
活跃度的定义所涉及的统计技术主要 标注 有两个,一个是主成分分析,另一个是数 据的标准化。其中,主成分分析的目的 就是把多个核心行为指标转化为一个或少 数几个主成分,并最终转化成一个综合的 分数,来作为活跃度的定义,到底是取第 个主成分,还是前两个或前三个,这要取决于主成分分析的特征根和累计方差贡 献率,一般来说,如果前面几个特征根的 累计方差贡献率达到80%以上,就可以基 本认为前面几个主成分就可以相应地代表 原始数据的大部分信息了;至于数据标准 化技术得到了普遍采用,主要是因为不同 的指标有不同的度量尺度,只有在标准化 之后,才可以将数据按照比例进行缩放, 使之落入一个小的区间范围之内,这样 不同变量经过标准化处理后就可以有平等 的分析和比较基础了。
这条书摘已被收藏
0
次
+1
0
分享
收藏
0
条评价
点击加载更多
导购链接
×
做书摘
文字书摘
读图识字
至少还需要输入
10
字
保存原图片为书摘
上传图片
识别
最多输入
500
个字
上传图片
重新上传
写点笔记吧
至少还需要输入
10
字
章节(选填)
推荐序
前言
第1章 什么是数据化运营
1.1 现代营销理论的发展历程
1.1.1 从4P到4C
1.1.2 从4C到3P3C
1.2 数据化运营的主要内容
1.3 为什么要数据化运营
1.4 数据化运营的必要条件
1.4.1 企业级海量数据存储的实现
1.4.2 精细化运营的需求
1.4.3 数据分析和数据挖掘技术的有效应用
1.4.4 企业决策层的倡导与持续支持
1.5 数据化运营的新现象与新发展
1.6 关于互联网和电子商务的最新数据
第2章 数据挖掘概述
2.1 数据挖掘的发展历史
2.2 统计分析与数据挖掘的主要区别
2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用
2.3.1 决策树
2.3.2 神经网络
2.3.3 回归
2.3.4 关联规则
2.3.5 聚类
2.3.6 贝叶斯分类方法
2.3.7 支持向量机
2.3.8 主成分分析
2.3.9 假设检验
2.4 互联网行业数据挖掘应用的特点
第3章 数据化运营中常见的数据分析项目类型
3.1 目标客户的特征分析
3.2 目标客户的预测(响应、分类)模型
3.3 运营群体的活跃度定义
3.4 用户路径分析
3.5 交叉销售模型
3.6 信息质量模型
3.7 服务保障模型
3.8 用户(买家、卖家)分层模型
3.9 卖家(买家)交易模型
3.10 信用风险模型
3.11 商品推荐模型
3.11.1 商品推荐介绍
3.11.2 关联规则
3.11.3 协同过滤算法
3.11.4 商品推荐模型总结
3.12 数据产品
3.13 决策支持
第4章 数据化运营是跨专业、跨团队的协调与合作
4.1 数据分析团队与业务团队的分工和定位
4.1.1 提出业务分析需求并且能胜任基本的数据分析
4.1.2 提供业务经验和参考建议
4.1.3 策划和执行精细化运营方案
4.1.4 跟踪运营效果、反馈和总结
4.2 数据化运营是真正的多团队、多专业的协同作业
4.3 实例示范数据化运营中的跨专业、跨团队协调合作
第5章 分析师常见的错误观念和对治的管理策略
5.1 轻视业务论
5.2 技术万能论
5.3 技术尖端论
5.4 建模与应用两段论
5.5 机器万能论
5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸
第6章 数据挖掘项目完整应用案例演示
6.1 项目背景和业务分析需求的提出
6.2 数据分析师参与需求讨论
6.3 制定需求分析框架和分析计划
6.4 抽取样本数据、熟悉数据、数据清洗和摸底
6.5 按计划初步搭建挖掘模型
6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案
6.7 按优化方案重新抽取样本并建模,提炼结论并验证模型
6.8 完成分析报告和落地应用建议
6.9 制定具体的落地应用方案和评估方案
6.10 业务方实施落地应用方案并跟踪、评估效果
6.11 落地应用方案在实际效果评估后,不断修正完善
6.12 不同运营方案的评估、总结和反馈
6.13 项目应用后的总结和反思
第7章 数据挖掘建模的优化和限度
7.1 数据挖掘模型的优化要遵循有效、适度的原则
7.2 如何有效地优化模型
7.2.1 从业务思路上优化
7.2.2 从建模的技术思路上优化
7.2.3 从建模的技术技巧上优化
7.3 如何思考优化的限度
7.4 模型效果评价的主要指标体系
7.4.1 评价模型准确度和精度的系列指标
7.4.2 ROC曲线
7.4.3 KS值
7.4.4 Lift值
7.4.5 模型稳定性的评估
第8章 常见的数据处理技巧
8.1 数据的抽取要正确反映业务需求
8.2 数据抽样
8.3 分析数据的规模有哪些具体的要求
8.4 如何处理缺失值和异常值
8.4.1 缺失值的常见处理方法
8.4.2 异常值的判断和处理
8.5 数据转换
8.5.1 生成衍生变量
8.5.2 改善变量分布的转换
8.5.3 分箱转换
8.5.4 数据的标准化
8.6 筛选有效的输入变量
8.6.1 为什么要筛选有效的输入变量
8.6.2 结合业务经验进行先行筛选
8.6.3 用线性相关性指标进行初步筛选
8.6.4 R平方
8.6.5 卡方检验
8.6.6 IV和WOE
8.6.7 部分建模算法自身的筛选功能
8.6.8 降维的方法
8.6.9 最后的准则
8.7 共线性问题
8.7.1 如何发现共线性
8.7.2 如何处理共线性
第9章 聚类分析的典型应用和技术小窍门
9.1 聚类分析的典型应用场景
9.2 主要聚类算法的分类
9.2.1 划分方法
9.2.2 层次方法
9.2.3 基于密度的方法
9.2.4 基于网格的方法
9.3 聚类分析在实践应用中的重点注意事项
9.3.1 如何处理数据噪声和异常值
9.3.2 数据标准化
9.3.3 聚类变量的少而精
9.4 聚类分析的扩展应用
9.4.1 聚类的核心指标与非聚类的业务指标相辅相成
9.4.2 数据的探索和清理工具
9.4.3 个性化推荐的应用
9.5 聚类分析在实际应用中的优势和缺点
9.6 聚类分析结果的评价体系和评价指标
9.6.1 业务专家的评估
9.6.2 聚类技术上的评价指标
9.7 一个典型的聚类分析课题的案例分享
9.7.1 案例背景
9.7.2 基本的数据摸底
9.7.3 基于用户样本的聚类分析的初步结论
第10章 预测响应(分类)模型的典型应用和技术小窍门
10.1 神经网络技术的实践应用和注意事项
10.1.1 神经网络的原理和核心要素
10.1.2 神经网络的应用优势
10.1.3 神经网络技术的缺点和注意事项
10.2 决策树技术的实践应用和注意事项
10.2.1 决策树的原理和核心要素
10.2.2 CHAID算法
10.2.3 CART算法
10.2.4 ID3算法
10.2.5 决策树的应用优势
10.2.6 决策树的缺点和注意事项
10.3 逻辑回归技术的实践应用和注意事项
10.3.1 逻辑回归的原理和核心要素
10.3.2 回归中的变量筛选方法
10.3.3 逻辑回归的应用优势
10.3.4 逻辑回归应用中的注意事项
10.4 多元线性回归技术的实践应用和注意事项
10.4.1 线性回归的原理和核心要素
10.4.2 线性回归的应用优势
10.4.3 线性回归应用中的注意事项
10.5 模型的过拟合及对策
10.6 一个典型的预测响应模型的案例分享
10.6.1 案例背景
10.6.2 基本的数据摸底
10.6.3 建模数据的抽取和清洗
10.6.4 初步的相关性检验和共线性排查
10.6.5 潜在自变量的分布转换
10.6.6 自变量的筛选
10.6.7 响应模型的搭建与优化
10.6.8 冠军模型的确定和主要的分析结论
10.6.9 基于模型和分析结论基础上的运营方案
10.6.10 模型落地应用效果跟踪反馈
第11章 用户特征分析的典型应用和技术小窍门
11.1 用户特征分析所适用的典型业务场景
11.1.1 寻找目标用户
11.1.2 寻找运营的抓手
11.1.3 用户群体细分的依据
11.1.4 新品开发的线索和依据
11.2 用户特征分析的典型分析思路和分析技术
11.2.1 3种划分的区别
11.2.2 RFM
11.2.3 聚类技术的应用
11.2.4 决策树技术的应用
11.2.5 预测(响应)模型中的核心自变量
11.2.6 假设检验的应用
11.3 特征提炼后的评价体系
11.4 用户特征分析与用户预测模型的区别和联系
11.5 用户特征分析案例
第12章 运营效果分析的典型应用和技术小窍门
12.1 为什么要做运营效果分析
12.2 统计技术在数据化运营中最重要最常见的应用
12.2.1 为什么要进行假设检验
12.2.2 假设检验的基本思想
12.2.3 T检验概述
12.2.4 两组独立样本T检验的假设和检验
12.2.5 两组独立样本的非参数检验
12.2.6 配对差值的T检验
12.2.7 配对差值的非参数检验
12.2.8 方差分析概述
12.2.9 单因素方差分析
12.2.10 多个样本组的非参数检验
12.2.11 卡方检验
12.2.12 控制变量的方法
12.2.13 AB Test
第13章 漏斗模型和路径分析
13.1 网络日志和布点
13.1.1 日志布点
13.1.2 日志采集
13.1.3 日志解析
13.1.4 日志分析
13.2 漏斗模型与路径分析的主要区别和联系
13.3 漏斗模型的主要应用场景
13.3.1 运营过程的监控和运营效率的分析与改善
13.3.2 用户关键路径分析
13.3.3 产品优化
13.4 路径分析的主要应用场景
13.5 路径分析的主要算法
13.5.1 社会网络分析方法
13.5.2 基于序列的关联分析
13.5.3 最朴素的遍历方法
13.6 路径分析案例的分享
13.6.1 案例背景
13.6.2 主要的分析技术介绍
13.6.3 分析所用的数据概况
13.6.4 主要的数据结论和业务解说
13.6.5 主要分析结论的落地应用跟踪
第14章 数据分析师对业务团队数据分析能力的培养
14.1 培养业务团队数据分析意识与能力的重要性
14.2 数据分析师在业务团队数据分析意识能力培养中的作用
14.3 数据分析师如何培养业务团队的数据分析意识和能力
14.4 数据分析师培养业务团队数据分析意识能力的案例分享
14.4.1 案例背景
14.4.2 过程描述
14.4.3 本项目的效果跟踪
第15章 换位思考
15.1 为什么要换位思考
15.2 从业务方的角度换位思考数据分析与挖掘
15.3 从同行的角度换位思考数据分析挖掘的经验教训
第16章 养成数据分析师的品质和思维模式
16.1 态度决定一切
16.1.1 信念
16.1.2 信心
16.1.3 热情
16.1.4 敬畏
16.1.5 感恩
16.2 商业意识是核心
16.2.1 为什么商业意识是核心
16.2.2 如何培养商业意识
16.3 一个基本的方法论
16.4 大胆假设,小心求证
16.5 20/80原理
16.6 结构化思维
16.7 优秀的数据分析师既要客观,又要主观
第17章 条条大道通罗马
17.1 为什么会条条大道通罗马
17.2 条条大道有侧重
17.3 自觉服从和积极响应
17.3.1 自觉服从
17.3.2 积极响应
17.4 具体示例
第18章 数据挖掘实践的质量保障流程和制度
18.1 一个有效的质量保障流程制度
18.1.1 业务需求的收集
18.1.2 评估小组评估需求的优先级
18.1.3 课题组的成立及前期摸底
18.1.4 向业务方提交正式课题(项目)计划书
18.1.5 数据分析挖掘的课题展开
18.1.6 向业务方提交结论报告及业务落地应用建议
18.1.7 课题(项目)的落地应用和效果监控反馈
18.2 质量保障流程制度的重要性
18.3 如何支持与强化质量保障流程制度
第19章 几个经典的数据挖掘方法论
19.1 SEMMA方法论
19.1.1 数据取样
19.1.2 数据探索
19.1.3 数据调整
19.1.4 模式化
19.1.5 评价
19.2 CRISP-DM方法论
19.2.1 业务理解
19.2.2 数据理解
19.2.3 数据准备
19.2.4 模型搭建
19.2.5 模型评估
19.2.6 模型发布
19.3 Tom Khabaza的挖掘9律
页码(选填)
这本书已经添加了这些章节,请勾选或者新建你的书摘所属的章节
add
up
down
remove
推荐序
前言
第1章 什么是数据化运营
1.1 现代营销理论的发展历程
1.1.1 从4P到4C
1.1.2 从4C到3P3C
1.2 数据化运营的主要内容
1.3 为什么要数据化运营
1.4 数据化运营的必要条件
1.4.1 企业级海量数据存储的实现
1.4.2 精细化运营的需求
1.4.3 数据分析和数据挖掘技术的有效应用
1.4.4 企业决策层的倡导与持续支持
1.5 数据化运营的新现象与新发展
1.6 关于互联网和电子商务的最新数据
第2章 数据挖掘概述
2.1 数据挖掘的发展历史
2.2 统计分析与数据挖掘的主要区别
2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用
2.3.1 决策树
2.3.2 神经网络
2.3.3 回归
2.3.4 关联规则
2.3.5 聚类
2.3.6 贝叶斯分类方法
2.3.7 支持向量机
2.3.8 主成分分析
2.3.9 假设检验
2.4 互联网行业数据挖掘应用的特点
第3章 数据化运营中常见的数据分析项目类型
3.1 目标客户的特征分析
3.2 目标客户的预测(响应、分类)模型
3.3 运营群体的活跃度定义
3.4 用户路径分析
3.5 交叉销售模型
3.6 信息质量模型
3.7 服务保障模型
3.8 用户(买家、卖家)分层模型
3.9 卖家(买家)交易模型
3.10 信用风险模型
3.11 商品推荐模型
3.11.1 商品推荐介绍
3.11.2 关联规则
3.11.3 协同过滤算法
3.11.4 商品推荐模型总结
3.12 数据产品
3.13 决策支持
第4章 数据化运营是跨专业、跨团队的协调与合作
4.1 数据分析团队与业务团队的分工和定位
4.1.1 提出业务分析需求并且能胜任基本的数据分析
4.1.2 提供业务经验和参考建议
4.1.3 策划和执行精细化运营方案
4.1.4 跟踪运营效果、反馈和总结
4.2 数据化运营是真正的多团队、多专业的协同作业
4.3 实例示范数据化运营中的跨专业、跨团队协调合作
第5章 分析师常见的错误观念和对治的管理策略
5.1 轻视业务论
5.2 技术万能论
5.3 技术尖端论
5.4 建模与应用两段论
5.5 机器万能论
5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸
第6章 数据挖掘项目完整应用案例演示
6.1 项目背景和业务分析需求的提出
6.2 数据分析师参与需求讨论
6.3 制定需求分析框架和分析计划
6.4 抽取样本数据、熟悉数据、数据清洗和摸底
6.5 按计划初步搭建挖掘模型
6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案
6.7 按优化方案重新抽取样本并建模,提炼结论并验证模型
6.8 完成分析报告和落地应用建议
6.9 制定具体的落地应用方案和评估方案
6.10 业务方实施落地应用方案并跟踪、评估效果
6.11 落地应用方案在实际效果评估后,不断修正完善
6.12 不同运营方案的评估、总结和反馈
6.13 项目应用后的总结和反思
第7章 数据挖掘建模的优化和限度
7.1 数据挖掘模型的优化要遵循有效、适度的原则
7.2 如何有效地优化模型
7.2.1 从业务思路上优化
7.2.2 从建模的技术思路上优化
7.2.3 从建模的技术技巧上优化
7.3 如何思考优化的限度
7.4 模型效果评价的主要指标体系
7.4.1 评价模型准确度和精度的系列指标
7.4.2 ROC曲线
7.4.3 KS值
7.4.4 Lift值
7.4.5 模型稳定性的评估
第8章 常见的数据处理技巧
8.1 数据的抽取要正确反映业务需求
8.2 数据抽样
8.3 分析数据的规模有哪些具体的要求
8.4 如何处理缺失值和异常值
8.4.1 缺失值的常见处理方法
8.4.2 异常值的判断和处理
8.5 数据转换
8.5.1 生成衍生变量
8.5.2 改善变量分布的转换
8.5.3 分箱转换
8.5.4 数据的标准化
8.6 筛选有效的输入变量
8.6.1 为什么要筛选有效的输入变量
8.6.2 结合业务经验进行先行筛选
8.6.3 用线性相关性指标进行初步筛选
8.6.4 R平方
8.6.5 卡方检验
8.6.6 IV和WOE
8.6.7 部分建模算法自身的筛选功能
8.6.8 降维的方法
8.6.9 最后的准则
8.7 共线性问题
8.7.1 如何发现共线性
8.7.2 如何处理共线性
第9章 聚类分析的典型应用和技术小窍门
9.1 聚类分析的典型应用场景
9.2 主要聚类算法的分类
9.2.1 划分方法
9.2.2 层次方法
9.2.3 基于密度的方法
9.2.4 基于网格的方法
9.3 聚类分析在实践应用中的重点注意事项
9.3.1 如何处理数据噪声和异常值
9.3.2 数据标准化
9.3.3 聚类变量的少而精
9.4 聚类分析的扩展应用
9.4.1 聚类的核心指标与非聚类的业务指标相辅相成
9.4.2 数据的探索和清理工具
9.4.3 个性化推荐的应用
9.5 聚类分析在实际应用中的优势和缺点
9.6 聚类分析结果的评价体系和评价指标
9.6.1 业务专家的评估
9.6.2 聚类技术上的评价指标
9.7 一个典型的聚类分析课题的案例分享
9.7.1 案例背景
9.7.2 基本的数据摸底
9.7.3 基于用户样本的聚类分析的初步结论
第10章 预测响应(分类)模型的典型应用和技术小窍门
10.1 神经网络技术的实践应用和注意事项
10.1.1 神经网络的原理和核心要素
10.1.2 神经网络的应用优势
10.1.3 神经网络技术的缺点和注意事项
10.2 决策树技术的实践应用和注意事项
10.2.1 决策树的原理和核心要素
10.2.2 CHAID算法
10.2.3 CART算法
10.2.4 ID3算法
10.2.5 决策树的应用优势
10.2.6 决策树的缺点和注意事项
10.3 逻辑回归技术的实践应用和注意事项
10.3.1 逻辑回归的原理和核心要素
10.3.2 回归中的变量筛选方法
10.3.3 逻辑回归的应用优势
10.3.4 逻辑回归应用中的注意事项
10.4 多元线性回归技术的实践应用和注意事项
10.4.1 线性回归的原理和核心要素
10.4.2 线性回归的应用优势
10.4.3 线性回归应用中的注意事项
10.5 模型的过拟合及对策
10.6 一个典型的预测响应模型的案例分享
10.6.1 案例背景
10.6.2 基本的数据摸底
10.6.3 建模数据的抽取和清洗
10.6.4 初步的相关性检验和共线性排查
10.6.5 潜在自变量的分布转换
10.6.6 自变量的筛选
10.6.7 响应模型的搭建与优化
10.6.8 冠军模型的确定和主要的分析结论
10.6.9 基于模型和分析结论基础上的运营方案
10.6.10 模型落地应用效果跟踪反馈
第11章 用户特征分析的典型应用和技术小窍门
11.1 用户特征分析所适用的典型业务场景
11.1.1 寻找目标用户
11.1.2 寻找运营的抓手
11.1.3 用户群体细分的依据
11.1.4 新品开发的线索和依据
11.2 用户特征分析的典型分析思路和分析技术
11.2.1 3种划分的区别
11.2.2 RFM
11.2.3 聚类技术的应用
11.2.4 决策树技术的应用
11.2.5 预测(响应)模型中的核心自变量
11.2.6 假设检验的应用
11.3 特征提炼后的评价体系
11.4 用户特征分析与用户预测模型的区别和联系
11.5 用户特征分析案例
第12章 运营效果分析的典型应用和技术小窍门
12.1 为什么要做运营效果分析
12.2 统计技术在数据化运营中最重要最常见的应用
12.2.1 为什么要进行假设检验
12.2.2 假设检验的基本思想
12.2.3 T检验概述
12.2.4 两组独立样本T检验的假设和检验
12.2.5 两组独立样本的非参数检验
12.2.6 配对差值的T检验
12.2.7 配对差值的非参数检验
12.2.8 方差分析概述
12.2.9 单因素方差分析
12.2.10 多个样本组的非参数检验
12.2.11 卡方检验
12.2.12 控制变量的方法
12.2.13 AB Test
第13章 漏斗模型和路径分析
13.1 网络日志和布点
13.1.1 日志布点
13.1.2 日志采集
13.1.3 日志解析
13.1.4 日志分析
13.2 漏斗模型与路径分析的主要区别和联系
13.3 漏斗模型的主要应用场景
13.3.1 运营过程的监控和运营效率的分析与改善
13.3.2 用户关键路径分析
13.3.3 产品优化
13.4 路径分析的主要应用场景
13.5 路径分析的主要算法
13.5.1 社会网络分析方法
13.5.2 基于序列的关联分析
13.5.3 最朴素的遍历方法
13.6 路径分析案例的分享
13.6.1 案例背景
13.6.2 主要的分析技术介绍
13.6.3 分析所用的数据概况
13.6.4 主要的数据结论和业务解说
13.6.5 主要分析结论的落地应用跟踪
第14章 数据分析师对业务团队数据分析能力的培养
14.1 培养业务团队数据分析意识与能力的重要性
14.2 数据分析师在业务团队数据分析意识能力培养中的作用
14.3 数据分析师如何培养业务团队的数据分析意识和能力
14.4 数据分析师培养业务团队数据分析意识能力的案例分享
14.4.1 案例背景
14.4.2 过程描述
14.4.3 本项目的效果跟踪
第15章 换位思考
15.1 为什么要换位思考
15.2 从业务方的角度换位思考数据分析与挖掘
15.3 从同行的角度换位思考数据分析挖掘的经验教训
第16章 养成数据分析师的品质和思维模式
16.1 态度决定一切
16.1.1 信念
16.1.2 信心
16.1.3 热情
16.1.4 敬畏
16.1.5 感恩
16.2 商业意识是核心
16.2.1 为什么商业意识是核心
16.2.2 如何培养商业意识
16.3 一个基本的方法论
16.4 大胆假设,小心求证
16.5 20/80原理
16.6 结构化思维
16.7 优秀的数据分析师既要客观,又要主观
第17章 条条大道通罗马
17.1 为什么会条条大道通罗马
17.2 条条大道有侧重
17.3 自觉服从和积极响应
17.3.1 自觉服从
17.3.2 积极响应
17.4 具体示例
第18章 数据挖掘实践的质量保障流程和制度
18.1 一个有效的质量保障流程制度
18.1.1 业务需求的收集
18.1.2 评估小组评估需求的优先级
18.1.3 课题组的成立及前期摸底
18.1.4 向业务方提交正式课题(项目)计划书
18.1.5 数据分析挖掘的课题展开
18.1.6 向业务方提交结论报告及业务落地应用建议
18.1.7 课题(项目)的落地应用和效果监控反馈
18.2 质量保障流程制度的重要性
18.3 如何支持与强化质量保障流程制度
第19章 几个经典的数据挖掘方法论
19.1 SEMMA方法论
19.1.1 数据取样
19.1.2 数据探索
19.1.3 数据调整
19.1.4 模式化
19.1.5 评价
19.2 CRISP-DM方法论
19.2.1 业务理解
19.2.2 数据理解
19.2.3 数据准备
19.2.4 模型搭建
19.2.5 模型评估
19.2.6 模型发布
19.3 Tom Khabaza的挖掘9律
×
添加一个书摘本
搜索创建书摘本
搜索
正在搜索...
不对,换一下
书名
作者
出版社
备注
ISBN
*
*
×
编辑书摘
书摘
最少还需要输入
10
字
写点笔记吧
最少还需要输入
10
字
*
这条书摘是属于哪一章节的?
推荐序
前言
第1章 什么是数据化运营
1.1 现代营销理论的发展历程
1.1.1 从4P到4C
1.1.2 从4C到3P3C
1.2 数据化运营的主要内容
1.3 为什么要数据化运营
1.4 数据化运营的必要条件
1.4.1 企业级海量数据存储的实现
1.4.2 精细化运营的需求
1.4.3 数据分析和数据挖掘技术的有效应用
1.4.4 企业决策层的倡导与持续支持
1.5 数据化运营的新现象与新发展
1.6 关于互联网和电子商务的最新数据
第2章 数据挖掘概述
2.1 数据挖掘的发展历史
2.2 统计分析与数据挖掘的主要区别
2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用
2.3.1 决策树
2.3.2 神经网络
2.3.3 回归
2.3.4 关联规则
2.3.5 聚类
2.3.6 贝叶斯分类方法
2.3.7 支持向量机
2.3.8 主成分分析
2.3.9 假设检验
2.4 互联网行业数据挖掘应用的特点
第3章 数据化运营中常见的数据分析项目类型
3.1 目标客户的特征分析
3.2 目标客户的预测(响应、分类)模型
3.3 运营群体的活跃度定义
3.4 用户路径分析
3.5 交叉销售模型
3.6 信息质量模型
3.7 服务保障模型
3.8 用户(买家、卖家)分层模型
3.9 卖家(买家)交易模型
3.10 信用风险模型
3.11 商品推荐模型
3.11.1 商品推荐介绍
3.11.2 关联规则
3.11.3 协同过滤算法
3.11.4 商品推荐模型总结
3.12 数据产品
3.13 决策支持
第4章 数据化运营是跨专业、跨团队的协调与合作
4.1 数据分析团队与业务团队的分工和定位
4.1.1 提出业务分析需求并且能胜任基本的数据分析
4.1.2 提供业务经验和参考建议
4.1.3 策划和执行精细化运营方案
4.1.4 跟踪运营效果、反馈和总结
4.2 数据化运营是真正的多团队、多专业的协同作业
4.3 实例示范数据化运营中的跨专业、跨团队协调合作
第5章 分析师常见的错误观念和对治的管理策略
5.1 轻视业务论
5.2 技术万能论
5.3 技术尖端论
5.4 建模与应用两段论
5.5 机器万能论
5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸
第6章 数据挖掘项目完整应用案例演示
6.1 项目背景和业务分析需求的提出
6.2 数据分析师参与需求讨论
6.3 制定需求分析框架和分析计划
6.4 抽取样本数据、熟悉数据、数据清洗和摸底
6.5 按计划初步搭建挖掘模型
6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案
6.7 按优化方案重新抽取样本并建模,提炼结论并验证模型
6.8 完成分析报告和落地应用建议
6.9 制定具体的落地应用方案和评估方案
6.10 业务方实施落地应用方案并跟踪、评估效果
6.11 落地应用方案在实际效果评估后,不断修正完善
6.12 不同运营方案的评估、总结和反馈
6.13 项目应用后的总结和反思
第7章 数据挖掘建模的优化和限度
7.1 数据挖掘模型的优化要遵循有效、适度的原则
7.2 如何有效地优化模型
7.2.1 从业务思路上优化
7.2.2 从建模的技术思路上优化
7.2.3 从建模的技术技巧上优化
7.3 如何思考优化的限度
7.4 模型效果评价的主要指标体系
7.4.1 评价模型准确度和精度的系列指标
7.4.2 ROC曲线
7.4.3 KS值
7.4.4 Lift值
7.4.5 模型稳定性的评估
第8章 常见的数据处理技巧
8.1 数据的抽取要正确反映业务需求
8.2 数据抽样
8.3 分析数据的规模有哪些具体的要求
8.4 如何处理缺失值和异常值
8.4.1 缺失值的常见处理方法
8.4.2 异常值的判断和处理
8.5 数据转换
8.5.1 生成衍生变量
8.5.2 改善变量分布的转换
8.5.3 分箱转换
8.5.4 数据的标准化
8.6 筛选有效的输入变量
8.6.1 为什么要筛选有效的输入变量
8.6.2 结合业务经验进行先行筛选
8.6.3 用线性相关性指标进行初步筛选
8.6.4 R平方
8.6.5 卡方检验
8.6.6 IV和WOE
8.6.7 部分建模算法自身的筛选功能
8.6.8 降维的方法
8.6.9 最后的准则
8.7 共线性问题
8.7.1 如何发现共线性
8.7.2 如何处理共线性
第9章 聚类分析的典型应用和技术小窍门
9.1 聚类分析的典型应用场景
9.2 主要聚类算法的分类
9.2.1 划分方法
9.2.2 层次方法
9.2.3 基于密度的方法
9.2.4 基于网格的方法
9.3 聚类分析在实践应用中的重点注意事项
9.3.1 如何处理数据噪声和异常值
9.3.2 数据标准化
9.3.3 聚类变量的少而精
9.4 聚类分析的扩展应用
9.4.1 聚类的核心指标与非聚类的业务指标相辅相成
9.4.2 数据的探索和清理工具
9.4.3 个性化推荐的应用
9.5 聚类分析在实际应用中的优势和缺点
9.6 聚类分析结果的评价体系和评价指标
9.6.1 业务专家的评估
9.6.2 聚类技术上的评价指标
9.7 一个典型的聚类分析课题的案例分享
9.7.1 案例背景
9.7.2 基本的数据摸底
9.7.3 基于用户样本的聚类分析的初步结论
第10章 预测响应(分类)模型的典型应用和技术小窍门
10.1 神经网络技术的实践应用和注意事项
10.1.1 神经网络的原理和核心要素
10.1.2 神经网络的应用优势
10.1.3 神经网络技术的缺点和注意事项
10.2 决策树技术的实践应用和注意事项
10.2.1 决策树的原理和核心要素
10.2.2 CHAID算法
10.2.3 CART算法
10.2.4 ID3算法
10.2.5 决策树的应用优势
10.2.6 决策树的缺点和注意事项
10.3 逻辑回归技术的实践应用和注意事项
10.3.1 逻辑回归的原理和核心要素
10.3.2 回归中的变量筛选方法
10.3.3 逻辑回归的应用优势
10.3.4 逻辑回归应用中的注意事项
10.4 多元线性回归技术的实践应用和注意事项
10.4.1 线性回归的原理和核心要素
10.4.2 线性回归的应用优势
10.4.3 线性回归应用中的注意事项
10.5 模型的过拟合及对策
10.6 一个典型的预测响应模型的案例分享
10.6.1 案例背景
10.6.2 基本的数据摸底
10.6.3 建模数据的抽取和清洗
10.6.4 初步的相关性检验和共线性排查
10.6.5 潜在自变量的分布转换
10.6.6 自变量的筛选
10.6.7 响应模型的搭建与优化
10.6.8 冠军模型的确定和主要的分析结论
10.6.9 基于模型和分析结论基础上的运营方案
10.6.10 模型落地应用效果跟踪反馈
第11章 用户特征分析的典型应用和技术小窍门
11.1 用户特征分析所适用的典型业务场景
11.1.1 寻找目标用户
11.1.2 寻找运营的抓手
11.1.3 用户群体细分的依据
11.1.4 新品开发的线索和依据
11.2 用户特征分析的典型分析思路和分析技术
11.2.1 3种划分的区别
11.2.2 RFM
11.2.3 聚类技术的应用
11.2.4 决策树技术的应用
11.2.5 预测(响应)模型中的核心自变量
11.2.6 假设检验的应用
11.3 特征提炼后的评价体系
11.4 用户特征分析与用户预测模型的区别和联系
11.5 用户特征分析案例
第12章 运营效果分析的典型应用和技术小窍门
12.1 为什么要做运营效果分析
12.2 统计技术在数据化运营中最重要最常见的应用
12.2.1 为什么要进行假设检验
12.2.2 假设检验的基本思想
12.2.3 T检验概述
12.2.4 两组独立样本T检验的假设和检验
12.2.5 两组独立样本的非参数检验
12.2.6 配对差值的T检验
12.2.7 配对差值的非参数检验
12.2.8 方差分析概述
12.2.9 单因素方差分析
12.2.10 多个样本组的非参数检验
12.2.11 卡方检验
12.2.12 控制变量的方法
12.2.13 AB Test
第13章 漏斗模型和路径分析
13.1 网络日志和布点
13.1.1 日志布点
13.1.2 日志采集
13.1.3 日志解析
13.1.4 日志分析
13.2 漏斗模型与路径分析的主要区别和联系
13.3 漏斗模型的主要应用场景
13.3.1 运营过程的监控和运营效率的分析与改善
13.3.2 用户关键路径分析
13.3.3 产品优化
13.4 路径分析的主要应用场景
13.5 路径分析的主要算法
13.5.1 社会网络分析方法
13.5.2 基于序列的关联分析
13.5.3 最朴素的遍历方法
13.6 路径分析案例的分享
13.6.1 案例背景
13.6.2 主要的分析技术介绍
13.6.3 分析所用的数据概况
13.6.4 主要的数据结论和业务解说
13.6.5 主要分析结论的落地应用跟踪
第14章 数据分析师对业务团队数据分析能力的培养
14.1 培养业务团队数据分析意识与能力的重要性
14.2 数据分析师在业务团队数据分析意识能力培养中的作用
14.3 数据分析师如何培养业务团队的数据分析意识和能力
14.4 数据分析师培养业务团队数据分析意识能力的案例分享
14.4.1 案例背景
14.4.2 过程描述
14.4.3 本项目的效果跟踪
第15章 换位思考
15.1 为什么要换位思考
15.2 从业务方的角度换位思考数据分析与挖掘
15.3 从同行的角度换位思考数据分析挖掘的经验教训
第16章 养成数据分析师的品质和思维模式
16.1 态度决定一切
16.1.1 信念
16.1.2 信心
16.1.3 热情
16.1.4 敬畏
16.1.5 感恩
16.2 商业意识是核心
16.2.1 为什么商业意识是核心
16.2.2 如何培养商业意识
16.3 一个基本的方法论
16.4 大胆假设,小心求证
16.5 20/80原理
16.6 结构化思维
16.7 优秀的数据分析师既要客观,又要主观
第17章 条条大道通罗马
17.1 为什么会条条大道通罗马
17.2 条条大道有侧重
17.3 自觉服从和积极响应
17.3.1 自觉服从
17.3.2 积极响应
17.4 具体示例
第18章 数据挖掘实践的质量保障流程和制度
18.1 一个有效的质量保障流程制度
18.1.1 业务需求的收集
18.1.2 评估小组评估需求的优先级
18.1.3 课题组的成立及前期摸底
18.1.4 向业务方提交正式课题(项目)计划书
18.1.5 数据分析挖掘的课题展开
18.1.6 向业务方提交结论报告及业务落地应用建议
18.1.7 课题(项目)的落地应用和效果监控反馈
18.2 质量保障流程制度的重要性
18.3 如何支持与强化质量保障流程制度
第19章 几个经典的数据挖掘方法论
19.1 SEMMA方法论
19.1.1 数据取样
19.1.2 数据探索
19.1.3 数据调整
19.1.4 模式化
19.1.5 评价
19.2 CRISP-DM方法论
19.2.1 业务理解
19.2.2 数据理解
19.2.3 数据准备
19.2.4 模型搭建
19.2.5 模型评估
19.2.6 模型发布
19.3 Tom Khabaza的挖掘9律
*
页码
×
删除
您确定要删除吗?
口相关系数的方法。最常见的就是皮尔逊相关系数( Pearson Correlation)
口通过模型结论的观察。比如,在回归模型中,如果回归系数的标准差过大,就可能意味着变量之间存在着共线性问题。
口主成分分析方法。比如,第一主成分中,某几个原始变量的主成分载荷系数较大,且数值相近,就有可能在其中隐藏着共线性问题。
口根据业务经验判断的原本应该没有预测作用的变量突然变得有很强的统计性,那其中就有可能隐藏着共线性问题。
口对变量进行聚类。通过对区间型变量进行聚类,同一类中的变量之间具有较强的相似性,也就可能隐藏着共线性问题。
通过输入变量之间的相关性分析,找出潜在共线性问题的相关输入变量,对于高度线性相关的变量只保留一个。
针对类似的严重不符合逻辑的数据问题,要提请数据仓库重新回滚数据,直到数据正确为止。
我们就可以清楚地总结出产品和业务的些核心现状结论。比如,90%的公司客户在至少5个月的时间里没有购买公司产品,
85%的公司客户最近1年内购买公司产品
的次数小于等于2次,80%的客户在最近
1年内的消费金额低于50元。如果这些总
结的数据是来自一家快速消费品行业,那
么就说明这家企业的优质客户太少,忠诚
客户太少,企业的经营前景不妙。
固定的骨架作为基础和核心的。其中最重
要、最常见的两个基本点如下。
1)活跃度的组成指标应该是该业务
场景中最核心的行为因素
2)衡量活跃度的定义合适与否的重要判断依据是其能否有效回答业务需求的
终极目标。
下面我们用具体的案例来解释上述两
个基本点。
案例:PM产品是一款在线的SAAS产品,其用途在于协助卖家实时捕捉买家访问店铺的情况,并且通过该PM产品可以实现跟买家对话、交换联系方式等功能。作为PM产品的运营方,其运营策略是向所有平台的卖家免费提供PM产品的基本功能(每天只能联系一位到访的买家,也即限制了联系多位到访买家的功能)、向部分优质卖家提供一定期限内免费的PM产品全功能(这部分优质卖家免费获赠PM产品,可以享受跟付费一样的全功能)、向目标卖家在线售卖PM产品。
经过一段时间的运营,现在管理层需要数据分析团队定义一个合理的“PM产品用户活跃度”,使得满足一定活跃度分值的用户能比较容易转化成为PM产品的付费用户,同时这个合适的定义还可以帮助有效监控每天PM产品的运营效果和效率
根据上面的案例背景描述,以及之前
的活跃度定义的两个基本点来看,在本案例中,该业务场景中最核心的行为因素就
是卖家使用该PM产品与到访买家的洽谈
动作(表现形式为洽谈的次数)、在线登
录该PM产品的登录次数等。而该分析需
求的终极目的就是促成付费用户的转化,
所以项目最终活跃度的定义是否合适,是
否满足业务需求,一个最重要的评估依据
就是按照该活跃度定义出来的活跃用户群体里,可以覆盖多少实际的PM产品付费用户。从理论上来说,覆盖率越高越好,如果覆盖率不高,比如,实际付费用户群体里只有50%包含在活跃度定义的活跃群体里,那么这个活跃度的定义是不能满足
当初的业务需求的,也就是说这是一个不成功的定义。