剑指大数据:企业级数据仓库项目实战(在线教育版)_尚硅谷教育 编著_AZW3_MOBI_EPUB_PDF_电子书(无页码)_尚硅谷教育 编著

内容节选

第2章项目需求描述 数据仓库,顾名思义就是存储数据的“仓库”,在建设一个“仓库”之前,我们首先要明确以下几点:仓库主要存储的是什么、仓库主要为谁提供服务、仓库中的数据主要分成哪几个部分、仓库的建设最终需要达到什么样的标准、建设中需要用到哪些工具。这些内容在建设数据仓库之前同样也是需要明确的,这个过程就是数据仓库的项目需求分析。本章将从前期调研、项目架构分析、项目业务概述,以及系统运行环境4个方面,为大家展开介绍。 2.1 前期调研 在建设数据仓库之前,要充分地调研企业的业务和需求。这是搭建数据仓库的基石,业务调研与需求分析是否充分,直接决定了数据仓库的搭建能否成功,对后期数据仓库总体架构的设计、数据主题的划分都有重大影响。前期调研主要从以下几个方面展开。 1. 业务调研 企业的实际业务是涵盖很多业务领域的,不同的业务领域又包含多条业务线。数据仓库的构建要涵盖企业所有的业务领域,还是每个业务领域单独建设,是需要重点考虑的问题,在业务线方面也面临着同样的问题,所以在构建数据仓库之前,要对企业的业务进行深入调研,研究了解企业的各个业务领域、不同的业务领域都各自包含哪些业务线、业务线之间存在哪些相同点和不同点、业务线是否可以划分为不同的业务模块等问题。在构建数据仓库时要对以上问题进行充分考量,本项目中不涉及业务领域的划分,但是有多条业务线,如课程管理、考试管理、用户管理等,所有业务线统一建设数据仓库,可为企业决策提供全方面支持。 2. 需求调研 对业务系统有充分的了解并不意味着可以实施数据仓库建设了,还需要充分收集数据分析人员、业务运营人员的数据诉求和报表需求。需求调研通常从两方面展开,一方面是根据与数据分析人员、业务运营人员和产品人员的沟通获取需求,另一方面是对现有的报表和数据进行研究分析获取数据建设需求。 例如,业务运营人员想了解最近7天所有课程的下单金额,针对该需求我们来分析需要用到哪些维度数据和度量数据,明细宽表又应该如何设计。 3. 数据调研 数据调研是指在构建数据仓库之前做好数据探查工作,充分了解数据库类型、数据来源、每天产生的数据体量、数据库全量数据大小、数据库中表的详细分类,还需要对所有数据类型的数据格式有充分的了解,如是否需要清洗、是否需要做字段一致性规划、如何从原始数据中提炼出有效信息等。 例如,本项目中的数据类型主要是用户行为数据和业务数据,那么就需要充分地了解用户行为数据的数据格式,对业务数据的表类型进行细致划分。 2.2 项目架构分析 在搭建数据仓库之前,必须首先确定数据仓库的整体架构。从数据仓库的主要需求入手,分析数据仓库整体都需要哪些功能模块,再根据模块具体解决过程中的技术痛点,决定选用哪种大数据框架,最终形成明确具体的系统流程图。 2.2.1 在线教育数据仓库产品描述 随着我国互联网普及率的极速增长,在线教育行业也走上了发展的快速轨道,用户量和交易额年年增长。得益于技术的快速发展,庞大的用户群体产生了海量的用户数据,这些数据无序地堆积在企业的服务器中,看起来毫无价值。但是,数据即价值,通过合理地搭建数据仓库,可以帮助企业深度挖掘这些数据的深层价值。数据仓库搭建的目的,就是让用户更方便地访问海量数据,从数据中提取隐藏价值,要做到这一点,数据仓库需要具有时效性、准确性、可访问性和安全性。 1. 时效性 基于在线教育企业对数据仓库系统的基本诉求,我们认为数据仓库首先需要做到可以高效地采集不同系统产生的数据。在线教育系统每天产生大量的数据,数据基本分为两类:一类是日志数据,包括用户行为生成的日志数据和系统产生的日志数据;另一类是业务数据。对这两类数据都需要做到快速及时的采集,并且能对采集的数据进行合理分类。另外需要做到的是能为决策者提供数据分析的快速通道,做到这一点需要依靠的是对数据仓库的合理分层及数据建模,以合理的形式对数据仓库进行分割和分析计算,可以使用户和数据仓库的开发人员在较短的时间内得到需要的查询结果。 2. 准确性 想要数据仓库实施成功,用户必须信任数据仓库中的数据。数据仓库的搭建过程必须是可靠的,而用户对于数据从哪里来,如何抽取、转换、加载也必须清楚。作为数据仓库的开发人员,需要对数据仓库中的数据质量进行必要把控。 3. 可访问性 数据仓库还需要做到的一点是对数据进行合理且及时的展现。数据仓库的最终目的还是为用户提供数据服务,数据仓库最终面向的用户是业务人员、管理人员或者数据分析人员,他们对组织内的相关业务非常熟悉,对数据的理解也很充分,但是他们对数据仓库的使用和搭建往往不是很熟悉。这就要求我们在提供数据接口时,尽量设计得友好和简单,可以让他们轻易获取需要的数据。 4. 安全性 数据仓库中的数据有时候包含机密和敏感信息,为了能够使用这些数据,必须建立适当的权限管理机制,只有授权用户才能访问这些数据......

  1. 信息
  2. 内容简介
  3. 前言
  4. 第1章 大数据与数据仓库概论
  5. 第2章 项目需求描述
  6. 第3章 项目部署的环境准备
  7. 第4章 用户行为数据采集模块
  8. 第5章 业务数据采集模块
  9. 第6章 数据仓库搭建模块
  10. 第7章 DolphinScheduler全流程调度
  11. 第8章 数据可视化模块