阅读一些数据分析入门和感性认识的书
4种划分用户的方法之一:同期群分析,这个没有用过。
- 第2章
Q:什么是好的数据指标。 A: 1.好的数据指标是比较性的 //不同时间段,用户群体,竞争产品。 "本周的用户转化率比上周高"显然比"转化率为2%"更有意义。 2. 好的数据指标是简单易懂的 3. 好的数据指标是一个比率rate. // growth rate. (公司的基本状况包括市盈率、销售利润率、销售成本、员工平均营运收入等) 4. 好的数据指标会改变行为。这是最重要的评判标准:随着指标的变化,决策人员是否会采取相应的措施?
Q:如何找出好的数据指标 A:
- 定性和定量指标
- 虚荣指标与可付诸行动的指标
- 探索性指标和报告行指标
- 先见性指标和后见性指标
- 相关性指标和因果性指标
Q:练习:找出并写下你一丝不苟地遵循并每天回顾
的3-5个关键数据
,回答以下问题:
哪些是好的数据指标?
哪些指标帮助你进行商业决策,又有哪些是虚荣指标?
你能剔除那些不能为你带来任何价值的指标吗?
是否存在你尚未想到但可能更有意义的指标?
划掉那些不好的指标
,并把新发现的指标
加到你的列表里。在阅读本书的过程中,都要坚持这样的思考和行动。
相关性系数的实例:身高和体重相关性,全部数字化为标准差,来进行计算。 [-1,1]
- 一份分析报告应该涉及哪些东西 背景和假设 + 数据解说 + 建议 提到自己
你对外界的假设和你确信的观点,就是你的心智模型。 心智模型就是一个工具。 统计模型取决你的心智模型:心智模型决定你的观察结果。
动动笔:再次审视数据,想一想,有没有其他的心智模型适合这些数据
。
列出一些假设,若好结果,则假设成立。
列出一些假设,若坏结果,则假设成立。
心智模型必须包含你不了解的因素。 --> 改了一个反查表。
动动笔:为了搞清楚CEO不清楚的事情,你需要问哪些问题
。
- 让CEO(用户)思考
- 不确定因素:广告效果不确定
- 盲点:用户群可能不仅是少女。
信息的度量
信息熵
信息增益 = 信息熵 - 条件熵
主要为了方便大量的天文运算。 为了把复杂的乘除运算变为加减运算:利用对数和三角函数,具有把积化和差的特点,然后再通过查对数表或三角函数表,最终都转化为加减运算。
- 数据分析要有对比
- 逻辑回归应用之Kaggle泰坦尼克之灾
对于任何的机器学习问题,不要一上来就追求尽善尽美,先用自己会的算法撸一个baseline的model
出来,再进行后续的分析步骤,一步步提高。
在问题的结果过程中:
『对数据的认识太重要了!』
『数据中的特殊点/离群点的分析和处理太重要了!』
『特征工程(feature engineering)太重要了!』
『模型融合(model ensemble)太重要了!』
http://www.360doc.com/content/18/0106/16/44422250_719580875.shtml