数据体系的搭建

如题所述

第1个回答  2022-06-05
数据体系的搭建

1数据及体系的基本构成

2数据基础搭建

2.1数据存储

2.2数据搜集

2.2.1内部搜集

2.2.2外部采集

3数据的应用

3.1数据标准化

3.2数据报表

3.3数据应用系统

3.4专项数据分析

3.5数据自动化

分析师是对人和实物基本规律的诠释。

数据化运营是趋势。

分析问题千万不要从分析大数据开始,而是要对人、世界、产品或者商业行为最基本的认识着手。

实体与制度是所有组织的两大基础。

探索数据推动产品迭代的路。

1 数据及体系的基本构成

搜集数据、清理与存储数据→数据应用(报表、数据分析、数据应用系统、数据自动化)

2 数据基础搭建

搜集数据与存储数据,这是数据的基础设施。

2.1数据存储

2.1.1 存储( 内容实体)

统一的数据底层(保证数据的唯一性),所有的最细粒度的数据均存储在这里。

当然,当数据底层过于庞大,也可以考虑将底层数据分为公共层与专用层进行管理。

2.1.2 存储的方式(规范化、标准化)

存储数据的方式要标准化。

Eg:指标名称(英文)、指标名称(中文)、格式类型(如int)、数据计算逻辑、数据来源。

2.2数据搜集

内部搜集、外部采集。

2.2.1 内部搜集

系统埋点采集。

2.2.2 外部采集

爬取数据、购买数据、交换数据。

3 数据的应用

数据的使命是解释世界,目的是指导决策。

数据应用很容易陷入一种误区,即数据指标越多越好,对象的维度越多越好。我们需要回到分析本身。因此,在数据产品设计之初,需要对数据的使用背景、实际需求做好全面调查。

数据的应用主要包括:数据报表、数据应用系统、专项数据分析、数据自动化。

3.1数据标准化

在数据应用层面,同样需要数据的标准化。数据标准化是为了应对在数据变化、人员流动的情况下对数据的有效管理,确保数据对外口径的统一。但归根结底是为了数据的准确度。

这里的标准化包含两个层面。

一个是数据指标的标准化。比如:统一的数据解释(指标名称(英文)、指标名称(中文)、格式类型(如int)、数据计算逻辑、数据来源)。

二是数据分析体系的标准化。一个数据部门,不能永远在处理眼前的问题。为了促使分析部门功能的迭代进化,需要将常规的分析内容实现模块化、自动化,例如报表、应用系统。这样做,是为了释放分析师我的双手。但,分析师在面向未来工作,需要给定一个框架。这便是分析体系的标准化。

具体来说,分析体系标准化要解决的问题包括:

1、分析部门最完整的分析工作;

2、分析部门各种工作执行、交接与维护(比如开发报表完成后,将日常维护工作移交给其它同事,本人则继续进行其它的开发工作。专项分析报告完成后,后续的数据更新也没有必要完全由原分析师继续跟进,后期只需要做审核工作。)

专业分工是现代生产制度的标志。这样的标准化,便是为了释放分析师的双手,让分析师做好探索性的工作,而不是陷在常规工作里。

3.2数据报表

开发常用的数据报表。

前期开发完毕后,保存开发过程文件(使用场景、开发目的),后期使用与维护难度小。

3.3数据应用系统

数据应用系统是数据部门面向企业内部用户的数据产品。时效性与便利性是它最大的优点。

数据应用系统仅仅只是报表的线上化,在分析深度上并没有贡献。

但系统提供的让用户自助进行数据组合分析却为用户提供了更加开放的可能性。当无法提供确定的分析报表时,将数据组合的权利交给用户进行也是一种不错的选择。这更像是集体智慧的产品设计之道。

3.3.1 系统的开发、使用与维护

从需求分析,到数据产品方案设计,再到产品指标定义,之后进行开发,开发上线后进行调研优化,最后系统成型。

系统开发完毕后,为便于后期维护,数据产品的开发的过程文件需要整理、保存、归档。将过程中的资料归档整理,移交给维护人员,必要的用户资料上线至系统,以便用户查阅。

这里的过程文件,需要包括:

1、数据产品的落地场景(为什么要上线)

2、数据产品的系统构成(宏观层面,上线了什么,比如系统-表-字段的组成框架)

3、数据产品的指标解释(微观层面,上线指标的详细解释,比如:逻辑计算规则、底层表的来源)

4、数据产品的操作手册(新人上手怎么使用)

应用系统的使用与维护,涉及到使用过程中的用户疑问与系统修改。解决这两大问题的关键,在于前期的过程资料。

具体来说,操作手册指导新人入手,数据产品的系统构成、数据产品的指标解释分别从宏观、微观两个层面指导用户深入了解系统的内容,减少系统的专业模糊感,从而减少用户疑问,统一用户的使用口径。数据产品的落地场景,则解释系统存在的意义,以便后期修改系统能找到修改的理由。

3.3.2 技法

数据应用系统生态中,存在很多计算字段的数据是多端口(PC、APP)、多系统展现的,是否能在计算字段上赋予API接口的功能,以便将数据直接迁移,而不是重新调用底层表进行计算。这种API的实现的前提,一是让人随时能够查到有这个字段的存在,这需要完整的字段手册、统一的字段命名规则。二是当原始的字段被删除,这种计算规则可以被字段迁移到其它表上去,而其它表的引用也需要自动随之迁移引用的位置。为避免重新计算造成的逻辑不同、难以避免的操作误差。可以考虑将所有的计算字段存放于一个单独的地方,然后再由表来引用,当没有任何表引用的时候,则删除该计算字段。类似于程序语言里的变量。

3.4专项数据分析

专项数据分析存在的意义:是分析复杂的现实问题。包括业务分析与决策分析。

现实环境的多变性与复杂性是分析师存在的最大背景。挖掘现实的客观规律与提出有效的解决措施是分析师存在的最大价值。但往往客观规律存在很强的隐秘性,因此,传统上打破这种隐秘性往往依靠分析师的经验,但这对分析师的成长带来了严重的时间成本与经验成本。即使是资深的分析师,依然很难从数据与业务逻辑中挖掘出有效的价值。

归根结底,人的思考本身是有局限性的。但,这并不能掩盖他们的高价值。

由此,带来了一个新的问题。专项数据分析的成本很高,而且这个成本是多维度的。

3.5数据自动化

数据人做数据,最高水准就是数据不再需要数据人。

数据自动化,是面向未来的数据应用方法。在当前,采用机器学习与深度学习可以解决某种“模式”的事情。即可以解决某些“模式”的自动化的事情。

3.5.1 模式识别——价值挖掘

我们把环境与客体统称为“模式”。这种“模式”是无法具体描述的,亦或者是无法人为的穷举的,为了识别这种“模式”,我们采用机器学习的方式去处理。

因此,在“专项数据分析”中,存在的“难以挖掘出有效的价值”的问题,理论上利用机器学习是可以解决的。

3.5.2 模块的自动化

在功能自动化的早期,我们可以考虑将某种模块实现自动化。例如产品定价的自动化(千人千价)、销售业绩的自动化调整与考核、人力资源上的人员流失分析的自动化等等。