为什么进行网络营销中提出产品数据需求 _网络营销推广_网站建设设计_网页制作

为什么进行网络营销中提出产品数据需求

产品指标体系的建立不是一蹴而就的，运营人员需要根据产品所处的发展阶段，有所侧重地进行数据需求的提炼。为方便产品和数据上报开发、数据平台等部门同事之间沟通，大多数公司都会有产品需求文档模板，以辅助进行数据建设。目前，大多数创业型中小企业，产品数据的需求提炼到上报或许就是1~2人的事情，但同样建议做好数据文档的建设，如数据指标的定义、数据计算逻辑等。

IJYY语音为例，表7-5所列是YY语音的客户端团队建立的基础产品组需求实现流程。

上报数据

这个步骤是根据产品经理提出的数据需求，按照上报规范，将数据上报到务器的过程。上报数据的关键是数据上报通道的建设，只要上报通道足够通畅这个环节的工作就非常简单，因为数据平台可以代劳很多细节性的工作，运营员只需要按照规定的步骤，使用统一的数据SDK进行数据上报就可以了。

然而，如果是在一家初创公司，或者不太完善的公司，则需要从上报通道设开始做起。其中一个很关键的环节就是数据上报测试，该环节做不到位，会成不必要的麻烦。

如果公司没有足够的技术和资金来搭建自己的数据平台，也可以借助第三：数据平台。常用的有网页产品类，如百度指数、360大数据平台、艾瑞指数、鞫指数；电商平台类，如阿里指数、淘宝指数；移动端产品类，如友盟、微信指毂、Talking Data等。

数据采集

j 数据上报完，并得以确认之后，接下来就是一个偏技术化环节，即数据采集。由于专业性较强，这一步通常由数据分析师等专业人士完成。

数据采集是获取高质量数据的主要方式，是数据分析的基础，直接决定数据分析的结果。那么，如何做好数据采集工作呢？我们不妨先看一张图，即产品数据体系中最常见的数据采集流程，数据采集通常分为两步。

第一步，从业务系统上报到服务器，这部分主要是通过巡航导航指示器或者后台服务器，通过统一记录API调用之后，汇总在日志服务器中进行原始流水数据的存储。当这部分数据积累到一定量之后，需要考虑用分布式的文件存储来做，外部常用的分布式文件存储主要是HDFS。

HDFS是一个高度容错性的系统，它放宽(relax)了POSIX的要求(requirements)，这样可以实现流的形式访问( streaming access)文件系统中的数据。HDFS有着高容错性( fault-tolerant)的特点，并且设计用来部署在低廉(low-cost)的硬件上。它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集( large data set)的应用程序。

第二步即进人数据的抽取和转换环节。ETL是英文Extract-Transform-缩写，用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。

词较常用在数据仓库，但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，据分析，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库畸

数据存储

对数据进行采集之后就需要将其存储起来，以便后期使用时集中整理析。数据大多存储在专门的数据仓库中，存储的数据越多、越完善，标志着司对大数据运用得越好、越彻底。

成熟的互联网企业大多都有自己的数据仓库，这也是衡量其是否实现数运营，或对大数据运营能力大小的重要标志。

(1)接入层

数据接入层会将收集到的各种数据统一成一种内部的数据协议，方便后续数据处理系统使用。接人层支持各种格式的业务数据和数据源，包括不同的DB、文件格式、消息数据等。

(2)处理层

处理层，是指用插件化的形式来支持多种形式的数据预处理的一个过程。对于离线系统来说，一个重要的功能是需要按照某些维度（比如某个key值+时间等维度），将实时采集到的数据进行分类存储。同时，存储文件的粒度（大小／时间）也是需要定制的，使离线系统能以指定的粒度来进行离线计算。

(3)存储层

处理后的数据使用HDFS作为离线文件的存储载体。保证数据存储整体上是可靠的，然后最终把这部分处理后的数据，入库到腾讯内部的分布式数据仓库( TDW)。

数据接入

大量数据为什么要接入，主要基于两个原因。第一是由大数据的多样性造成的。大数据的多样性使得原有的单一通道不适用，这就需要针对数据的类型如结构化数据、半结构化数据、非结构数据，以及数据源的存储形式如关系数据库、分布式数据库两方面特性进行综合考虑，形成一个二维接人方式表。大数据的多样性表明，我们在接人数据的时候必然会采用多样化的接人手段。第二是由大数据的高速性造成的，这一特性使数据通道更为拥堵。

针对大数据的这些特点，流处理的技术发挥了重要作用。当然实际情况要更加复杂，在这里我们只是提出其中的一种解决问题的思路。

对此，可以依靠消息队列集群加流处理技术进行解决。例如，现在广泛采用的kafka+spark streaming的解决方案。数据通过消息的不同通道和订阅发布机制，建立不同的数据传输通道，并且通过分布式机制和缓存机制解决大量数据接人的性能问题。一些软件或APP中提供的采集助手就是要让不懂技术的人员也能接人各种类型的数据。

从实际应用来看，产品在考虑数据接人的时候，主要关心3个问如下。

【1)多个数据源的统一

一般实际的应用过程中，都存在不同的数据格式来源，这个时候，采冀入这部分，需要把这些数据源进行统一的转化。

（2J注意时效性

要注意采集的实时高效，由于大部分系统都是在线系统，对于数据效性要求会比较高。

(3)对无效数据进行处理

对于一些会影响整个分析统计的无效数据，需要在接入层的时候进行逻辑蔽，避免后面统计分析和应用的时候，因这部分数据导致很多不可预知的问题。