当前位置: 新豪天地登录网址 > www.3559.com > 正文

知悉数据平台,认识数据平台

时间:2019-11-05 23:15来源:www.3559.com
我们在实际工作中,技术视角和业务视角应该是交叉共存的。即在沿着技术视角去开展数据流链路上的工作时,也需要同时关注业务本身的情况,设计出更优雅的解决方案;同样在业务

我们在实际工作中,技术视角和业务视角应该是交叉共存的。即在沿着技术视角去开展数据流链路上的工作时,也需要同时关注业务本身的情况,设计出更优雅的解决方案;同样在业务视角应用数据手段去推进工作时,也需要关注数据流中各阶段上潜在的问题与风险点。

数据:源于业务又作用于业务;

四、总结

六、利用数据思维运营好一个产品

1. 需要解决的问题是什么?

在技术视角开展工作时,要同时关注业务本身的情况,设计出更优雅的解决方案,真正站在用户的角度考虑问题。

1、管起来:数据资产的自动化采集、存储技术

3. 如何采集渠道信息?(采集的上报时机)

用户行为发生在多端

  • Web端
  • Android端
  • iOS端
  • 二维码

3.1 Web端渠道采集

事件名称:浏览页面

维度:

  • 前向地址(和前向域名区分自然流量,但包含站内站外来源)
  • 前向域名
  • 广告系列来源
  • 广告系列媒介
  • 广告系列关键词
  • 广告系列内容
  • 广告系列名称
  • 最近一次站外地址(解决第一点的问题)
  • 最近一次站外域名

3.2 Android端渠道采集

事件名称:激活App

维度:

  • 广告系列来源
  • 广告系列媒介
  • 广告系列关键词
  • www.3559.com,广告系列内容
  • 广告系列名称

3.3 iOS端渠道采集

事件名称:激活App

关键是进入AppStore前的渠道来源

维度:

  • 广告系列来源
  • 广告系列媒介
  • 广告系列关键词
  • 广告系列内容
  • 广告系列名称

3.4 二维码端渠道采集

事件名称:扫描二维码

采集扫描二维码后打开的页面

维度:

  • 广告系列来源
  • 广告系列媒介
  • 广告系列关键词
  • 广告系列内容
  • 广告系列名称

题图来自 Pexels,基于 CC0 协议返回搜狐,查看更多

反过来,在业务视角应用数据手段去推进工作时,也需要关注数据流中各阶段可能会存在的问题与风险点。

大数据治理的最终目标是为最终用户提供数据,这需要快速找到数据,并快速建立数据交换的通道。

二、深度剖析5大数据分析工具

3.4 智能预警及分析

需要解决的问题是什么?

在多产品数据治理阶段,我们以提升数据质量为目标,完善和实现了数据标准管理和数据质量管理,实现了数据管理到数据治理能力的提升;

1. 数据价值所在?

  • 还原业务全貌,让你知道接下来要干嘛
    图1

(3)如何让数据驱动业务

市场团队关注应用市场投放的相关的数据;

自服务的大数据治理平台具备管理、开发、共享、使用等能力,通过自动、自助、智能化的大数据治理,能够实现对数据的找、供、用、治,从而一站式解决传统数据治理在大数据时代的各种难题,具体涉及到以下几个方面。

2.3 数据分析方法

常见的方法:

  • 多维事件分析
  • 漏斗分析
  • 留存分析
  • 行为序列分析
  • A/B testing
  • 用户分群

多维事件分析

  • 用户行为事件 多维数据模型
![](https://upload-images.jianshu.io/upload_images/4462810-5066eba56acc52f0.png)
  • 事件
  • 维度
  • 指标
  • PS:如果是一个数值型的维度,可以将它分别当作维度和指标组合起来分析

案例:分析订单支付

  • 背景:发现成交额一直下跌
![](https://upload-images.jianshu.io/upload_images/4462810-8594f497de3ba8db.png)
  • 解决:进行多维事件分析
  • 按支付方式进行拆解,发现微信支付下跌,猜想原因是不是接口出了问题等等
![](https://upload-images.jianshu.io/upload_images/4462810-8b3af1390bd93d05.png)

漏斗分析

  • 分析转化过程数据的最好方法
  • PS:注意窗口期(操作从第一步到最后一步的时间)

留存分析

  • 用户来了之后的存活情况

行为序列分析

www.3559.com 1

  • 针对客单价较高或抽样用户,分析他做了哪些事情,发现他的操作过程哪步出了问题,防止他流失

A/B testing

  • 产品改进时有用的方式

用户分群

  • 针对不同用户采用不同策略
  • 根据用户的属性信息、行为数据、行为序列等进行区分
  • 对其进行数据运营后,观察效果

(2)我该如何衡量它们

数据的业务视角

对数据及时性、问题数据量等方面的数据健康环境进行全面的预警。

2. 神策

【案例:华润万家】

  • 背景:做互联网 ,有PC、App、公众号
  • 需求:
  • 三端采集和监控
  • 用户跨屏识别
  • 强烈的行为和业务数据贯通分析

【案例:融360】

  • 业务流程:[渠道获客 → 用户访问 → 浏览贷款 → 提交申请](线上行为) → [线下核实 → 贷款成功](线下行为)
  • 需求:
  • 线下实际成交量反推线上该渠道的ROI,即打通线上线下行为数据打通

【案例:自定义指标】

  1. 电商客户
  • 不关心UV,只关心每天有多少购买,以及这个比值是否上升
  1. 互金客户
  • 不同于传统的流失定义,只要用户清空了账户金额,即视为流失
  1. 分享经济
  • 需要非常灵活的指标定义和查询,业务同学可以自主完成,比如交易放弃率这样的指标

【案例:Keep】

  • 需求:
  • 提高日活跃占比
  • 提高日活跃参与度
  • 解决方法:
  • 基于用户行为进行分群,然后进行推送
  • 构建“用户行为 → 推送系统 → 报表系统 → 用户画像 → 个性推荐”这个闭环

2.5 数据计算

首先,我的业务是什么?

建立数据治理体系,监控并快速发现问题

1. 案例:不高兴的市场/运营经理

  • 公司:某大型电商平台
  • 人物:市场/运营经理
  • 背景:
  • 元旦即将到来,为了能在元旦期间有一个比较高的销售额,需要在多渠道进行营销推广预热。
  • 在拿到营销推广经费后,开始在各大合作渠道进行投放。
  • 投放前告诉开发进行相应的渠道数据埋点,便于跟踪渠道效果。
  • 问题:真的说清楚了嘛?
  • 结果:
  • 渠道投放后,获取数据往往要等1-2天,拿到数据后发现想要看的数据不全或没有标记
  • 关键是Paid Search的流量效果让人着急,自己觉得很冤枉,认为数据并没有反映真实的情况
  • 案例原因:
  • 不知道该标记哪些信息
  • 不知道如何采集这些信息(转述给开发的过程中交流出错)
  • 不知道如何评估渠道的效果
  • 不知道如何及时获取信息
  • 目的:如何花较低的成本获得高质量的用户

原标题:从技术和业务视角,认识数据平台

www.3559.com 2

www.3559.com 3

一、利用数据做好精细化运营

2.7 元数据管理

具体解决方式包括实时监控、离线分析、精细化运营工具、智能预警及分析等。

2、有保障:数据质量探查和提升技术

1. 什么是数据驱动

  • 依据数据统计结果做出决策
  • 需求推动的数据驱动(效率低)
  • 自助的数据驱动(效率高)
  • 针对现有业务:数据部门会提供给业务方不同场景下的模块日志采集方案清单,业务方只需按照现有清单选择模块上报,数据部门会自动收集;
  • 针对新业务:数据部门会提供模块日志注册系统,形成良性注册机制,让数据部门提前感知,自动化收集模块数据。

www.3559.com 4

大数据治理从建设内容和实施目标上可以划分成不同的阶段,每个阶段完成不同的任务,随着阶段的递进,建设内容逐步加深,不同的企业切入点和诉求也各不相同。大致分为以下几个阶段:

Growth Hacking(增长黑客)

  • 传统营销只关注用户获取
  • Growth Hacking关注用户的整个生命周期,通过产品改进,获得自增长。常用的方法是社会化媒体和病毒式传播(结合产品特征和当前热点、手段)

Growth Hacking 与数据分析

  • 拉新:渠道转化分析、用户数、A/B testing
  • 留存:留存分析、用户分群
  • 营收:交易额、利润率、用户分群

作业一:数据采集在大数据分析中的作用

3.2 离线分析

风控团队关注风控相关数据等。

第一,要想及时全面地找到问题数据,不仅要关注关键点,还要有合适的方法。数据最容易出现质量问题的地方就是数据集成点,例如:性别在单系统中,有1和0或者男和女表示都行,但是系统间集成时就会有问题。因此,解决数据质量的关键,就在于在集成点检查数据质量。另外,针对大数据量的数据质量检查,即要保证实时性,也要保证不影响业务系统的正常运行,因此在对特别大的数据量进行检查时,要采用抽样检查的方式。

4. 如何评估营销渠道效果?

4.1 首先要明确的是:互联网营销的用户点击流

  • 点击前阶段(用户获取阶段)
  • 点击后阶段
  • 购买后阶段
![](https://upload-images.jianshu.io/upload_images/4462810-63bcd43b3e3c518c.png)

4.2 流量渠道的评估方法一:直接解读

  • 只看转化(最好是实时获得)
  • ROI存在缺陷:大流量渠道成本高导致ROI低,但不可能放弃
![](https://upload-images.jianshu.io/upload_images/4462810-09be6f604dbaeba8.png)
  • 只看Engagement
![](https://upload-images.jianshu.io/upload_images/4462810-c7046acc7e86667b.png)
  • 用户参与度,用户和你产品的交互程度
  • 纵轴平均停留时长,横轴平均访问深度,圆圈大小代表访问量
  • 延伸方法:ROI结合Engagement
![](https://upload-images.jianshu.io/upload_images/4462810-3ebf90b0e2920a9f.png)
  • 纵轴Engagement,即Engagement Index(手工核算的值),横轴ROI
  • Engagement高、ROI低代表是新用户
  • ROI高、Engagement低代表是老用户,做用户行为路径回放,是否对其他用户有指导意义

4.3 流量渠道的高阶评估方法:渠道归因

用户选择购买的最终渠道不一定是购买行为转化的真正渠道,可能受到了其他渠道的影响

4.3.1 首次归因模型(用户第一次来到网站的渠道来源)

  • 用户属性表(看用户各个行为的转化情况)
  • 首次前向地址
  • 首次前向域名
  • 首次广告系列来源
  • 首次广告系列媒介
  • 首次广告系列关键词
  • 首次广告系列内容
  • 首次广告系列名称

4.3.2 末次归因模型(用户最后一次来到网站的渠道来源)

  • 浏览页面
  • 最近一次前向地址
  • 最近一次前向域名
  • 最近一次广告系列来源
  • 最近一次广告系列媒介
  • 最近一次广告系列关键词
  • 最近一次广告系列内容
  • 最近一次广告系列名称

4.3.3 如何分析

  • 首次 VS 末次

4.4 流量渠道的转化率评估

  • 背景:营销活动带来注册量,要区分渠道质量
  • 解决方法:
  • 按首次注册渠道进行细分
![](https://upload-images.jianshu.io/upload_images/4462810-2cf311732bf89b80.png)

4.4.1 总结:转化指标和消费四象限

www.3559.com 5

  • 第一象限:用户向二迁移
  • 第二象限:保持
  • 第三象限:渠道归因发生在这个渠道,不要轻易砍掉,用户向二迁移
  • 第四象限:用户向一迁移

4.5 流量渠道的留存率评估

  • 按渠道来源、付费广告的媒介形式进行查看
  • 查看留存下来的用户的详细信息,促活(插图20)
  • 查看单个、整体留存用户的行为序列,引导其他用户(插图21)
![](https://upload-images.jianshu.io/upload_images/4462810-4fef7c9253e8e4ad.png)



![](https://upload-images.jianshu.io/upload_images/4462810-b6a35a2d8b6da5ac.png)



![](https://upload-images.jianshu.io/upload_images/4462810-e0f33434781ae3d5.png)

4.6 总结

  1. LinkTag打标签
  2. 渠道采集上报时机
  3. 渠道效果评估的方法
  4. 渠道效果获取的及时性(投放时机很短,没有回溯的机会)

作业三:尝试分析某个特定渠道的营销效果,比如sem的营销效果?

三、数据的业务视角

市场团队通过衡量不同渠道来源用户的质量,优化投放策略;

www.3559.com 6

分享嘉宾:

  • 从数据流程的视角看:不同业务类型企业的解决方案大同小异,目标都是为了保证数据整体的完整性、准确性、时效性;
  • 从业务流程的视角看:不同业务类型企业的解决方案各有不同,本文中业务类型偏电商类。

不同业务单元依据自身业务属性,需要数据团队解决的数据问题也不一样。如:

要做数据治理首先要知道有哪些数据,传统的数据治理往往只管理了数据领域,很少关注业务、管理和开发相关的数据资产,数据管理范围比较窄,而且,受限于技术实现,即使在数据领域的数据资产也很难做到精确管理;

3. 漏斗组成

  1. 目标行为(确定目标行为是什么成功,比如电商是最终购买成功)
  2. 步骤行为(到达目标的步骤,比如浏览商品详情、添加购物车、选择地址、支付等)
  3. 进入退出(找出流失点,用户从哪个步骤进来或退出的,找出原因对产品提出优化)

  4. 实际应用


4.1 如何创建漏斗

  • 设置目标和设置步骤(目标要区分宏观和微观,以便清晰设置)
  • 原则:建议设置的步骤为必经步骤
  • 因为漏斗模型适合封闭型的场景,一个非常明确的,以到达某个目标而设立的某种产品的转化流程,比如注册流程

www.3559.com 7

4.2 如何解读漏斗

  • 看步骤转化率、整体转化率是否达到行业基准值/竞争对手值/历史值

4.3 如何分析漏斗

  1. 解读漏斗
  2. 确定问题步骤
  3. 多维度细分(地域/客户端/品类级别等等)
  4. 用户行为轨迹功能(用户异常的行为)
  5. 流失用户明细列表
  6. 流失用户个人行为序列

  7. 漏斗优势


  1. 行为粗细(目标、步骤是否够细,细到页面行为还是交互行为)
  2. 多维分析(基于用户、行为属性不断下钻找出背后的异常和原因)
  3. 还原场景

5.1 行为粗细

  • 页面级别
  • 行为级别(页面上的行为)

www.3559.com 8

5.2 多维分析

  • 前端属性(埋SDK)
  • 全端属性(包括前端、后端)

www.3559.com 9

5.3 还原场景

  • 查出流失点的用户异常行为路径
  • 拉出异常用户行为列表
  • 查看用户个人行为序列,找出背后的原因

www.3559.com 10

www.3559.com 11

www.3559.com 12

www.3559.com 13

作业四:

  • 漏斗分析主要适应的场景是哪些?
  • 如何衡量整体和步骤转化率的合理性?

www.3559.com 14

基于立场的不同,导致了从业务视角与从技术视角看到的表现层内容会不一样,但究其本质是相通的。

第二,元数据管理第二个核心问题是解决各类元数据的采集,由于元数据类型多种多样,而且在不断增加,所以,如何以最小代价,快速纳入管理新类型元数据的能力,是元数据管理的核心。

5. 创业公司如何构建指标体系

  • 为了找准目标,发力往一处打

两种方法:

  • One Metric
  • Pirate Metrics: AARRR

One Metric —— 第一关键指标法

  • 找到最关键的一个指标
  • 扩展出其他指标
  • 任意指定的时间里,都有那么一个指标
  • PS:根据业务情况不断调整

案例:电商

www.3559.com 15

创业阶段

  • MVP阶段:定性分析(直接找亲朋好友聊)
  • 增长阶段:留存分析、引荐分析等
  • 营收阶段:渠道分析、LTV、CAC等

案例:百度知道

  • 看情况选择合适的指标重点发力
  • 访问量
  • 检索量
  • 独立IP数
  • Session数
  • 提问量
  • 回答量
  • 设置最佳答案

Pirate Metrics: AARRR —— 海盗指标法

  • 拉新
  • 获取(Acquisition)
  • 激活(Activation):早早让他体验到high点
  • 引荐(Referral)
  • 留存(Retention):做一个有用的东西;体验要好
  • 提升关键行为的重复频率
  • 营收(Revenue)
  • 促进商业化

    www.3559.com 16

市场团队通过衡量不同渠道来源用户的质量,评估渠道ROI,优化投放策略;客户端团队通过观察不同产品方案的转化效果,改进注册及其他核心行为发生的主流程设计;运营团队通过用户细分,评估不同用户群在活动对的转化效果,进行精细化运营等。

整体看,数据平台是由“数据流程”和“业务流程”两大主体共同构成的解决方案,两着相辅相成、互相依赖、密不可分。

建好数据管理体系,快速识别数据

2. 怎么搭建数据分析框架

  1. 梳理业务
  2. 事件设计(需要采集那些数据)
  3. 数据采集
  4. 构建指标体系
  5. 确定业务目标
  6. 数据分析
![](https://upload-images.jianshu.io/upload_images/4462810-e59126acafd32f07.png)

【案例:广发证券App】

(1) 梳理业务流程:开户/购买理财产品流程

www.3559.com 17

www.3559.com 18

(2)设计事件:推测用户行为,设置好采集点

  • 采用event模型,梳理事件及其属性
![](https://upload-images.jianshu.io/upload_images/4462810-7fb6033230a528a9.png)
  • 梳理事件每一步的成功率
![](https://upload-images.jianshu.io/upload_images/4462810-7b0719bcf576be05.png)



![](https://upload-images.jianshu.io/upload_images/4462810-d524a25b9b363ec9.png)
  • 梳理用户属性,通过UID与用户行为进行交叉分析
![](https://upload-images.jianshu.io/upload_images/4462810-20563ab572238a99.png)

(3)推动技术做数据采集工作

  • 选择何种采集方式,前端或后端SDK
![](https://upload-images.jianshu.io/upload_images/4462810-7622b6b23e47fff8.png)
  • 采集方式总结

  • 采集标准:全、细、准

![](https://upload-images.jianshu.io/upload_images/4462810-0e0d6ac3b7926d49.png)

(4)构建指标体系

  • 端到端的用户行为分析:AARRR
![](https://upload-images.jianshu.io/upload_images/4462810-6ab6ca5abc91f664.png)
  • 维度细分
![](https://upload-images.jianshu.io/upload_images/4462810-2e43e1da1aecf4bb.png)

(5)确定业务目标:OMTM

  • 能正确反映业务和阶段
  • 简单易懂,好理解
  • 复合指标一般都好于计数指标
  • 去除虚荣指标,好的指标能指导和改变行为
  • 形成报表

(6)展开数据分析:产品/运营/市场

  • 多个指标综合评估功能
  • 留存分析 A/B test(发现问题、建立假设、快速验证、得出结论)
  • 用户分群 PaaS平台(极其细致的用户分群,如1天前、2天前的用户,进行精细化运营)

作业五:给自己的产品也做一下事件设计

整体看数据平台是由「数据流程」和「业务流程」两大运转主体共同构成的解决方案,两大主体相辅相成、互相依赖、密不可分。

平台:基于数据也服务于数据;

在数据融合的自助数据服务阶段,除了基于元数据实现数据的快速查找定位,通过数据治理保证数据的高质量外,还提供了数据服务的开发和共享能力,基于这些能力让用户能自助、有保证地获取数据。

四、漏斗分析提升产品优化

www.3559.com 19

客户端团队关注用户转化相关的属性数据;

采集:指从各种工具中,把各种类型的元数据采集进来。

2.2 数据建模

对数据进行组织

传统数据库直接拿出来用的缺点:

  • 太复杂,产品经理看不懂
  • 性能不行,分析不了

解决方法:

  • 建数据仓库,抽象一系列的用户行为事件,将不同维度进行组合、过滤

    www.3559.com 20

核心模型:

OLAP(Online Analytical Processing)

www.3559.com 21

  • 维度(比如城市、操作系统)
  • 指标(一个数值,比如销售额、注册用户数)

道阻且长,溯洄从之。

其次,如何让数据驱动业务?

目标:构建企业数据资产库

2. 漏斗思维

2.1 广义的漏斗

  • AARRR模型

2.2 狭义的漏斗

www.3559.com 22

2.6 数据应用

无论数据在应用层面以何种方案最终呈现,最终都是为了解决问题而存在;具体需要从数据的业务视角去思考两个问题:

内容:企业元数据梳理和采集

  • 神策团队
  • Acfun张涛
  • 馒头商学院

数据从生产到应用的整体流程是任何一个数据从业者都绕不开的主题,即便是非数据领域的产品和运营同学,同样也应该对业务中数据的流向有个初步的认识。要展开描述,我们必须从数据的技术视角思考两个问题:

从业务流程的视角看:不同业务类型企业的解决方案各有不同。

作为大数据治理的落地工具,自助化数据服务共享平台不仅要为开发者提供一套完整的数据生产线,也需要给运维者提供易用的监控界面,毕竟系统的运维才是工具应用的常态。全局的数据资产监控能力和数据问题跟踪能力同样重要,通过全局的数据资产监控能力,能使客户方便地了解到企业数据共享交换的全貌、系统间的数据关系和数据提供方和消费方的使用情况;通过数据问题跟踪能力,能实现数据问题的智能定位,减少运维工作难度。

三、利用数据提升渠道营销效果

依据以上,我们可以从业务视角总结出数据平台产品矩阵,下图为参考示例:

数据从生产到应用的整体流程是任何一个数据从业者都绕不开的主题,必须从数据的技术视角思考两个问题:

第三,与人工相比,技术的最突出特点是速度快和精确。因此,如何通过技术手段精确地获取数据资产是关键,特别是元数据关系,一般都存在于模型设计工具、ETL工具,甚至开发的SQL脚本中,因此需要通过工具组件解析、SQL语法解析等手段完成关系的获取和建立。准确解析后的关系,还需要通过直观的关系图展现出来。

1. 数据分析的现状(痛点)

  • 现状一:过于简单
![](https://upload-images.jianshu.io/upload_images/4462810-74b3427ad240c9f5.png)
  • 现状二:过于复杂
![](https://upload-images.jianshu.io/upload_images/4462810-4f469d198251ec80.png)
  • 现状三:效率太低
![](https://upload-images.jianshu.io/upload_images/4462810-6edcfbb705b4d5a1.png)

数据的应用是数据最终产生价值的部分,该阶段的关键字是「完善、洞察」。基于数据流前面的流程处理,该环节最终会提供给应用方业务报表、数据访问、自动化工具、统计模型等应用;以下描述了数据平台和数据应用方在应用阶段需要长期持续关注的问题:

运营团队关注活动相关数据;

www.3559.com 23


  • 数据接入流程:需要对业务数据的接入流程做全面了解,重点从数据认知层面规避“不合理的输入”;
  • 数据上报地址及API应用方法:确定API应用规范,保证数据上报位置准确,上报信息不被丢弃;
  • 埋点规范及内容 :在遵循数据接入埋点规范的前提下,保证各业务中具有差异性部分数据的完整性,通常会基于事件模型中的“who when how where what”几个关键要素设计埋点;
  • 数据测试方法:数据测试方法也会依据埋点形式的不同而不同,一般分为前端和后端数据测试。前端常见测试抓包工具如“Fiddler”,后端通常将数据上报至测试服务器,捞取日志观察其完整性、实时性。

从数据流程的视角看:不同业务类型企业的解决方案大同小异,目标都是为了保证数据整体的完整性、准确性、时效性;

自服务大数据治理平台可以保障企业数据资产的质量。企业内数据环境复杂,很容易出现数据不一致、数据不及时、数据缺失等一系列问题,如何识别并快速定位数据问题?特别是针对海量数据,如何在不影响性能情况下找出问题数据?这是做大数据治理遇到的第二个坎。

1. 流量统计工具

  • CNZZ、百度统计、谷歌分析、友盟
  • 服务自身业务
  • 商业模式
  • 强调标准化
  • 前端采集
  • 满足最基本需求

以下从业务视角拆解数据平台产品解决方案:

www.3559.com 24

www.3559.com 25

1. 漏斗分析的定义

  • 一种用来分析目标转化情况的最基础模型
  • 了解目标转化现状
  • 发现泄露点:技术/产品/运营谁的问题

www.3559.com 26

客户端团队通过观察不同产品方案的转化效果,改进注册及其他核心行为发生的主流程设计;

普元在大数据治理领域持续进行投入,元数据产品在大量实施客户的锤炼下不断完善和提升,每个版本都有新能力体现,其中:

2. 数据处理流程

  1. 数据采集
  2. 数据建模(规范、打通、整合数据)
  3. 数据分析

误区:忽略一二层的规划

数据计算是数据变活的过程,主要分为离线和实时计算,该阶段的关键字是「准确、稳定」。会按照不同业务单元的需要,设计数据指标,并按照不同场景中的业务逻辑确定统计规则,最终由系统实现例行计算。数据本身并不具备任何价值,但一旦我们将它变为衡量事情的标准、将它变为洞察业务的眼睛,它就有了不可估量的力量。

数据的技术视角

工欲善其事必先利其器,大数据治理的落地开展离不开工具的支撑。大数据治理工具一般分为两类:一类是单个工具,另一类是集成平台,用于不同的阶段、场景和客户。其中,单独工具有:元数据、数据质量、主数据等,集成平台包括数据资产管理、数据治理平台、自助服务平台等。

4. 运营分析实践

案例:SaaS运营分析实践

  • 产品发布评估
  • 试用客户留存分析
  • 流失用户召回

4.1 产品发布(神策数据)

  • 发布渠道:朋友圈、微信群、36Kr(埋点分析数据来源)
  • 36Kr专门写了一篇文章发布,但从结果发现导来的用户量只占0.9%
![](https://upload-images.jianshu.io/upload_images/4462810-3e723a113b8ecd67.png)
  • 运营活动的目的是激活用户
  • 漏斗分析多种维度分析转化效果
![](https://upload-images.jianshu.io/upload_images/4462810-80096f30124ddbc4.png)



![](https://upload-images.jianshu.io/upload_images/4462810-b02299672fa75bf5.png)

4.2 试用客户留存分析

www.3559.com 27

  • 试用后,数据顾问要马上联系用户,挖掘他的需求,看他有没有其他建议

4.3 流失用户召回

  • 根据联系方式召回,看不同效果,砍掉后续的拍脑袋决策
  • 加个引导流程
![](https://upload-images.jianshu.io/upload_images/4462810-226291708a3a1522.png)
  • 实时异常分析:实时异常分析基于历史数据,获取当前时间点的可能数值范围,当实际值在该范围以外时,即认为数据异常。关键要求是及时和准确
  • 智能分析:具体策略是对关键核心指标进行维度拆解,寻找出影响核心指标波动中不同维值的“贡献度”,最终定位问题
  • 其他

运营团队通过用户细分,评估不同用户群在活动对的转化效果,进行精细化运营等。

www.3559.com 28

2. 如何还原业务全貌

2.1 推荐工具:

  • Appsee:适合初创、小于1万个用户的团队
  • inspectlet:网页版的Appsee,推荐用在网站的关键页面
  • Sensors Data:强调事件流

2.2 如何还原:

  1. 实时漏斗
  2. 用户分布及访问路径
  3. 单用户行为序列

  4. 如何对团队产生价值


3.1 不同岗位的价值

  • 产品:看用过某个新功能的回访表现对比整个大盘的回访表现
  • 运营:GA实时监控,上内容点击量最高的
  • 渠道:提升运营效率
  • 技术:查崩溃前用户操作

3.2 如何放大价值

  • Dashboard
  • 自动化邮件(提需求之后,自动发邮件,推荐GA)
  • 报警
  • 与工作流程结合起来

声明:本文著作权归讲师所有,仅供学习交流之用。侵删!

(1)我的业务是什么

需要解决的问题是什么?

建体系

3. 数据分析方法

上文2.3数据分析方法

  1. 为什么需要数据团队解决?
  2. 需要解决的问题是什么?
  3. 该通过什么方式解决?

  4. 为什么需要数据团队解决?(why)

数据平台,顾名思义,就是数据 平台:

www.3559.com 29

2. 如何对渠道进行精细化标记和区分

2.1 精确流量识别技术LinkTag

www.3559.com 30

  • 链接如何生成
  1. 找到一个构建工具的表单
  2. 输入网站地址,即推广落地页的地址
  3. 填写其他字段区分来源,自动生成
![](https://upload-images.jianshu.io/upload_images/4462810-d99f0404f55b2af8.png)

营销渠道标记的解释

www.3559.com 31

2.2 DSP、Affiliate(CPS联盟)等流量渠道如何准确标识

  • 还是使用UTM代码,代码格式如下
  • http://www.yoursite.com/page.html?utm_medium=DSP&utm_campaign=new-product
  • 将媒介形式改成了DSP的方法
  • 如何查看效果:筛选出DSP的渠道
![](https://upload-images.jianshu.io/upload_images/4462810-5dbedfd285ec0a6c.png)

2.3 线下广告怎么追踪

  • 二维码:utm_source=utm_medium=二维码
  • 目前最好的解决方案
  • 在微信中打开成为最常见的场景,需解决监测问题
  • 优惠券码
  • 国内不常用
  • 区隔性较好,但并不精确
  • 搜索引擎
  • 营销上应创造独特的可供搜索的区隔内容
  • 区隔投放
  • 宏观效果评价较为容易且置信度较好
  • 微观不具备操作性
  1. 需要解决的问题是什么?
  2. 如何保证数据流中不同阶段的最优解?

该通过什么方式解决?

数据治理的目标是把数据管起来、用起来、保证数据质量,这些目标离不开各种技术的支持,这些技术包括元数据自动采集和关联、数据质量的探查和提升、数据的自助服务和智能应用等。

五、从方法到实践,从0搭建数据分析体系

  1. 数据类型:数据产生场景复杂、数据类型多(行为、交易、用户、商品..),数据结构复杂(结构化/非结构化/半结构化数据);
  2. 数据量级:存储量级大,传统关系型数据库不能解决;
  3. 数据处理:清洗规则多,计算任务流程长,计算血缘关系复杂等;
  4. 数据应用:行为分析,多维交叉分析,实时多维分析,丰富的可视化等。

  5. 需要解决的问题是什么?(how)

什么是数据平台?

技术不完善

2.1 数据采集

  • 常见问题:

  • 不准确

  • 不完备(比如不只要采集客户端数据,还要采集后端数据)

  • 不细致(各种数据要采集完整)

  • 基本原则:

  • 全:多种源(客户端、服务端、数据库等),全量而非抽样,要打通数据

  • 细:Who、When、Where、How、What

  • 采集的方法:

  • 可视化埋点(嵌一个SDK,确定要采集哪些数据)(缺点:不够细)

    • 分析UV、PV、点击量等基本指标
    • 活动/新功能快速上线迭代时的效果评估
  • 代码埋点(客户端、服务端都有SDK,可以进行精细化分析)

    • 精细化分析核心转化流程
    • 分析不同渠道和不同推广方式的投放效果
  • 导入辅助工具

    • 客服服务质量的考核
    • 不同快递在不同省份运送不同品类产品的速度的比较

不同业务单元依据自身业务属性,需要数据团队解决的数据问题也不一样。如市场团队关注应用市场投放相关的数据,客户端团队关注设备/应用版本/用户转化相关的属性数据,运营团队关注活动相关数据,风控团队关注风控相关数据等。

如何保证数据流在不同阶段的最优技术解决方案?

其次,尽管元数据是一个基础的管理工具,也需要具备好的颜值和便捷的使用方式,以便给用户带来好的应用感受。作为一款元数据管理工具,能让用户能在一个界面全面了解到元数据信息,通过图像从更多维度、更直观地了解企业数据全貌和数据关系是很重要的。除此之外,通过H5等流行的展现技术实现各浏览器的兼容,支持界面的移植也是元数据管理工具必不可少的能力。

3. 一款理想的用户行为分析工具

数据驱动的要点:快速、高效

  • 用户识别
  • 精准识别
  • 跨屏追踪
  • 还原场景(采集用户行为数据)
  • 线上线下打通
  • 行为业务
  • 还原行为
  • 自助分析
  • 灵活指标
  • 分析模型
  • 多维细分
  • 二次开发
  • 私有数据
  • 开放平台

作业二:百度统计、友盟等工具可以统计或分析什么样的数据?什么需求或场景是这些工具做不到的?

一、什么是数据平台?

不管是产品经理,设计人员,研发人员,在实际工作中都应该技术视角和业务视角交叉共存。

www.3559.com 32

3.3 精细化运营工具

存储:采集元数据之后需要相应的存储策略来对元数据进行存储,这需要在不改变存储架构的情况下扩展元数据存储的类型;

2.3 数据处理

www.3559.com 33

责任编辑:

在单产品阶段,我们重点关注在基础能力上面,把元数据自动化采集能力覆盖到业界各种常用工具,并在核心的数据关系解析方面做了深入的研究和落地,保证数据管理。

本文由 @黑夜月 原创发布于人人都是产品经理,未经作者许可,禁止转载。

本文目录:

基于立场的不同,导致了从业务视角与从技术视角看到的表现层内容会不一样,但究其本质是相通的。无论数据在应用层面以何种方案最终呈现,最终都是为了解决问题而存在;参考「黄金圈法则」我们同样也需要从数据的业务视角去思考三个问题:

从作业、模型、物理资源等各方面进行全面的数据资产盘点;

  • 事件分析:基于事件模型的自动化分析工具,业务方可依据行为埋点查询到不同行为事件的用户表现
  • 事件漏斗分析:基于事件模型的自动化漏斗分析工具,可自行设置业务转化漏斗,观测各精分业务流程中的转化效果,拆解转化问题
  • 留存分析:按照留存模型,起始行为精分用户群体,依据精分用户群不同行为频次的表现,观测各层用户的留存
  • 画像分群:按照不同主体拆分属性,通过属性组合,筛选目标分群,进行精细化运营(1.用户分群:以唯一用户ID为主体,组合用户的不同分类属性,筛选目标用户群,做差异化运营或用户分析;2.商品分群:以唯一商品ID为主体,组合商品的不同分类属性,筛选目标商品群,做精细化商品分析;3.订单分群:以唯一订单ID为主体,组合订单的不同分类属性,筛选目标订单群,做精细化交易分析)
  • SQL查询工具:可视化SQL查询
  • 其他

基于企业元数据信息,通过自然语言处理、机器学习、模式识别等算法,以及业务规则过滤等方式,实现知识的提取;

二、数据的技术视角

内容:建立企业标准和质量提升体系

数据仓库面向应用而生,该阶段的关键字是「分层、建模」。为了保证数据的普遍适用性及拓展性,会对仓库进行分层,通常分为:源数据层、数据仓库层、数据集市层、数据应用层。常见数据仓库模型为“星型模型”,星型模型就是一种典型的维度模型。我们在进行维度建模的时候会建一张事实表,这个事实表就是星型模型的中心,然后会有一堆维度表,这些维度表就是向外发散的星星。

管理和应用:在采集和存储完成后,对已经存储的元数据进行管理和应用。

2. 数据流的不同阶段如何保证最优解?

在技术层面存储缺乏扩展性,采集自动程度不高,管理实时性不高。

数据处理、清洗是数据输入到仓库的前置阶段,该阶段关键字是「清洗规则」,目的是建立符合业务需要的数据清洗方案。比如什么格式的数据该被过滤;比如在广告投放中,用户符合哪种规则算是作弊用户;比如在用户行为数据中,符合哪种特征的行为算是爬虫用户等等。

自服务大数据治理平台可以实现数据自助应用体系。不论是数据的管理,还是数据的治理,最终的目的都是支持数据的应用。实际的数据应用场景各异、对实时性、数据量、获取方式的要求也不同,如何以最简单的方式建立通道,让需要的人拿到数据?这是做大数据治理的遇到的第三个坎。

2.4 数据仓库

基于元数据的自助数据服务开发,可以简单快速地建立数据通道。通过自助化的数据生产线,数据使用方大大减少了对开发人员依赖,80%以上的数据需求,都能通过自己进行整合开发,最终获取数据。让所有用数据的人能方便得到想要的数据。其中,提供所需数据的自助查询能力、自动生成数据服务、及时稳定的获得数据通道、保证数据安全是实现自助化的大数据生产线的四个关键点。

本文主要面向读者为互联网行业相关从业人员,期望对企业数据平台有所了解的人群;因篇幅有限,文中所述的主题及相关概念点到为止。

首先,元数据要有全面的数据管理能力。无论是传统数据还是大数据,无论是工具还是模板等,都应该是元数据的管理范畴。对于企业来说,要想统一管理所有信息资产,还依靠原来人工录入资产的方式肯定是不行的,企业需要从技术上提供各种自动化能力,实现对资产信息的自动获取,包括自动数据信息采集、自动服务信息采集与自动业务信息采集等,这要求企业使用的数据管理工具支持一系列的采集器,并且多采用直连的方式来采集相关信息。

3.1 实时监控

一、困难重重却充满光明的

  • 实时看板:专注于关键核心指标的实时表现,如用户、商品、订单等。视具体情况会将关键指标维度下钻后进行实时监控
  • 实时电视监控:依据平台数据源,适用于电视投屏,监控看板展现等
  • 红包/促销监控:关于红包主题的实时监控,观察业务中的红包发放/红包使用等波动情况,判断业务健康度
  • 用户监控:监控用户活跃/用户新增的表现,与推送服务、品牌投放、投放等的业务动作进行相关分析,判断效果是否符合预期,及时优化策略动作
  • 其他

促应用

数据产生,这个阶段是最适合向业务方宣灌数据生产应用流程的阶段,因为该阶段的优劣将会直接影响之后的各环节。该阶段的关键字是「规范输入」,需要给数据上游的业务方提供可行的数据埋点规范(业务团队自身业务库除外):

第一,针对数据资产的存储,模型体系规范为元数据管理提供了基础,通过模型管理可以实现统一稳定的元数据存储,统一的标准和规范能很好地解决通用性和扩展性。

  • 数据平台:是否能提供完善的业务分析指标体系,是否能提供完善的精细化运营工具;
  • 数据应用方:现有数据是否足够支撑业务分析,是否能依据现有数据发现更多的业务问题,是否能洞察潜在的商业机会。

要实现大数据治理的资产管理,需要做足三个方面的工作:

元数据管理贯穿整个数据流程始终,是一个较为宽泛的概念,元数据治理的好坏将直接决定了整个数据平台的品质。元数据管理主要分为三部分:技术元数据、业务元数据、过程元数据。

建立数据应用体系,共享和高效使用数据

作者:蒋坤伟,转转产品经理;个人公众号:黑夜月

第二,数据问题发现后,还要直观地将数据问题展现出来并及时通知相关人员。因此大数据治理平台应提供实时、全面的数据监控,实现多维度实时的数据资产信息展示:

  • 技术元数据:如日志文件的路径/格式、仓库表结构、数据表血缘关系等;
  • 业务元数据:如指标归属业务单元、业务描述、计算逻辑、业务类型等;
  • 过程元数据:如表更新规则(增量/全量)、更新频率、更新时间、量级等依据以上,我们可以从技术视角总结出数据平台需要哪些东西,下图是参考示例:

目标:提升数据质量

  1. 通过什么方式解决?(what)

传统数据治理一直无法逃脱的魔咒

  • 数据:源于业务又作用于业务;
  • 平台:基于数据也服务于数据。

元数据被当成单独的系统,而不是广泛的技术基础,导致只关心元数据本身的应用场景;

  • 自动邮件:通过配置化的方案,实现数据报表的自动邮件推送。也可以在离线报表上设置开关,发送具体页面数据表到指定邮箱
  • 数据分析:如:商品分析、交易分析、转化分析、DAU预测、订单预测等
  • 数据挖掘:通过聚类、回归、关联规则等常见挖掘算法分析问题,发现机会
  • 外部数据:竞对数据抓取及分析
  • 其他

2、大数据治理的最佳实践——自助化数据服务平台

2.2 数据采集

采用可插拔的适配器方式实现元数据的采集是一个很好的选择。其中,数据采集适配器应支持各类数据源的采集,当有一个新的数据源需要接入的时候,只需按照规范快速开发一套针对性的适配器,就能实现新类型元数据的纳入管理。

「闻道有先后,术业有专攻」与「有所为而有所不为」,业务技术团队的定位是服务于业务一线,数据团队的定位是提供专业性的数据解决方案,二者分工上的差异性决定了解决问题的最佳路径。如下列举了需要数据团队解决几类问题:

下面重点介绍其中两个核心的工具:一个是元数据,另一个是自助数据服务平台;

四、最后

知识图谱是一种非常好用、直观的数据应用方式。人工智能的知识图谱构建,可以从以下步骤考虑:

  • 核心看板:企业业务发展所处阶段的不同,所关注的核心指标也不同,核心看板着重关注公司战略层核心指标在核心维度上的趋势及构成表现
  • 业务看板:业务看板服务于不同业务团队,亦可视作各业务单元的核心看板
  • 流量分析:描述用户从哪里来,不同渠道用户的后续核心业务表现。同时也承载渠道数据管理的工作(如渠道分组/渠道关系维护等)
  • 用户分析:用户构成、用户留存、用户转化、行为、生命周期等场景的分析
  • 商品分析:商品构成、库存、售出、质量、商品生命周期等场景的分析
  • 交易分析:主要用于交易主题的多维交叉分析,用户与商品在交易链路上的具体表现,如:曝光→浏览→咨询→下单→支付→售后等链路的分析
  • 专题分析:搜索推荐分析、风控分析、竞对分析、垂类分析、运营位分析、垂类专区分析、活动分析等
  • 其他

www.3559.com 34

  • 数据供给:提供便捷的数据生产方案,以数据产生为起点,规范数据整个主体的供给,为夯实数据平台的基础提供保障;
  • 数据产出:保证数据在产出层面的普遍适用性。该阶段包括分析报表,自动化分析工具,查询入口等的建设;
  • 过程管理:保证数据的完整性、准确性、时效性,实现数据从产生到应用全流程的高效管理。

www.3559.com 35

数据采集,这个阶段是一个既主动又被动的环节。我们偶尔会收到xx业务方的疑问“为什么业务上线了,没有看到数据”,排查后才发现是因为模块日志并没有被采集。那该环节关键字便是「让日志被正确的采集」

以本体形式表示和存储知识,自动构建成起资产知识图谱;

「立足现状,具体问题具体分析」,不同企业所处的业务发展阶段不同,所面对的问题会不一样。同样,业务本身特性及企业对数据建设的资源倾斜程度不同,也会直接影响数据全流程处理的差异。最重要的还是立足于现状,站在更高的战略视角去思考整体的解决方案。下面从技术视角以“数据流”为骨架展开讲解数据产生至应用各环节中我们分别需要做什么:

大数据治理对企业数据建设的重要性不言而喻,然而实现的困难有时也会让人望而却步,选择合适的技术和工具会达到事半功倍的效果。希望通过本文介绍能够帮助在建,或者准备规划大数据治理的各位,在大数据治理的资产管理、数据质量保证、数据应用等方面的技术和工具选择上有所帮助。

3.5 其他解决方案

自服务大数据治理是解决问题之道

团队属性的不同,也决定了量化到数据指标的衡量标注不同。各业务团队拥有自己的关键唯一指标和对应拆解/下钻的指标体系。

在企业数据建设过程中,大数据治理受到越来越多的重视。从企业数据资产管理和提升数据质量,到自服务和智能化的数据应用,大数据治理的内容在不断地发展和完善,其落地实施的过程中会遇到各种各样的难题和挑战。本篇文章通过分析大数据治理建设中的沟沟坎坎,总结出了大数据治理需要具备的能力和关键技术。

2.1 数据产生

www.3559.com 36

数据平台字面的意思是“数据 平台”:

缺少应用场景

www.3559.com 37

自服务大数据治理平台可以通过自动化手段,自动识别企业数据资产并标明数据方位和属性,建立业务能理解的数据服务目录。

大数据治理发展之路

业务元数据的广泛缺失,导致业务人员无法使用技术性的元数据系统,元数据缺乏业务用户,使用者少;

二、大数据治理技术需要不断革新

www.3559.com 38

但是,随着元数据管理范围的不断扩大,CWM规范已经不能满足通用的元数据管理需求,针对微服务、业务等也需要一套规范支撑。MOF规范位于模型体系最底层,可以为元数据存储提供统一的管理理论基础。

www.3559.com 39

一、困难重重却充满光明的大数据治理发展之路

三、如何选择合适的大数据治理工具?

业务难结合

元数据5完整地支持了数据仓库元数据管理,提供元数据维护、版本、分析等元数据基本能力;元数据6进行了全新内核提升,性能大幅提升,包括检索性能、分析性能;以及覆盖模型工具、ETL工具、数据库、报表工具等最新版本等的全面数据资产管理;元数据7从大数据能力支持、应用场景落地、展现全面升级三方面做了全新改版,以适应新阶段数据治理需求。

目标:数据智能应用

然而,大数据治理建设之路并不是一帆风顺的,甚至说是充满各种问题和困难,如何管理企业级的数据资产、如何让业务积极参与到数据建设中来、如何降低数据治理的落地难度等一系列问题,一直困扰着数据治理的发展,传统数据治理的问题主要体现在以下几个方面:

四、总结

二、大数据治理技术需要不断革新

管理范围窄

通过知识图谱关系,利用智能搜索、关联查询等手段,为最终用户提供更加精确的数据;

通过自服务大数据治理平台建立和支撑起基于数据指标、质量检核、问题发现和监控的完善数据治理体系,从事前、事中和事后等各个环节规避、发现和解决数据问题,将能保证数据应用无后顾之忧。

自服务大数据治理平台可以实现有数据可管理。现在的企业数据资产繁杂众多,特别是建设大数据平台的企业,数据的类型、分布、实现技术、所属部门等都很繁杂,通过手工一点点梳理是不现实的,如何低成本、快速有效地将数据梳理和管理起来?这是做大数据治理遇到的第一个坎。

大数据治理最终目标不仅仅是为了管理数据,而是为用户提供一套数据服务的生产线,让用户能通过这条生产线自助地找到数据、获得数据,并规范化地使用数据,因此自助化数据服务共享平台是大数据治理必不可少的工具。

再次,元数据管理工具不仅仅是一个工具,还需要关注各类人的使用诉求,跟具体用户的使用场景相结合。对于业务人员来说,通过元数据管理的业务需求管理,能更容易地和技术人员沟通,便于需求的技术落地;对于开发人员来说,通过元数据管理能管控系统的开发上线、提升开发规范性,自动生成上线脚本,降低开发工作难度和出错几率;对于运维人员来说,通过元数据管理能让日常巡检、版本维护等工作变得简单可控,辅助日常问题分析查找,简化运维工作。

通过自服务大数据治理平台能够实现数据的自助查找、开发、共享和交换,建立数据共享通道,实现数据的开放应用。

三、如何选择合适的大数据治理工具?

从单产品、多产品到最终的融合产品,普元数据治理产品满足大数据治理各阶段需求,支持数据管理、数据治理和数据应用。

通过大数据治理来提升数据质量的过程中,涉及到很多环节、工作和技术,其中包括:通过合理的技术找出数据问题并找到问题数据;从各个维度监控数据问题,并能通过最直观和快捷的方式反馈给相关责任人;实现问题发现、认责、处理、归档等数据问题的闭环解决流程等。中间主要涉及到以下两个方面:

传统数据资产管理采用CWM规范进行数据资产存储设计,该规范提供了一个描述相关数据信息元数据的基础框架,并为各种元数据之间的通信和共享提供了一套切实可行的标准。

内容:自服务通道、构建企业知识图谱

www.3559.com 40

www.3559.com 41

摸家底阶段

3、用起来:自助化数据服务构建技术

www.3559.com 42

www.3559.com 43

www.3559.com 44

1、大数据治理的核心——元数据管理工具

元数据是大数据治理的核心,元数据管理工具应该支持企业级数据资产管理,并且从技术上支持各类数据采集与数据的直观展现,从应用上也要支持不同类型用户的实际应用场景,一个合格的元数据管理工具,需要具备以下几项基本能力:

编辑:www.3559.com 本文来源:知悉数据平台,认识数据平台

关键词: www.3559.com