制造业多价值链协同数据空间设计理论与方法_牛东晓;王宏伟;韩洁平_AZW3_MOBI_EPUB_PDF_电子书(无页码)_牛东晓;王宏伟;韩洁平
内容节选
4.2 混合存储 制造企业中的日常生产活动会产生大量多源异构数据,这些数据主要包括供应数据、生产数据、营销数据和服务数据。供应数据包括供应商信息、原材料供应信息等;生产数据包括原材料信息、库存信息、物料结构信息、产品信息、批次信息等;营销数据包括各区域的销量、利润、销售额等信息;服务数据包括客户信息、售后信息、故障信息等。 全价值链信息数据量大、种类多、来源多样,为了能够集成全价值链数据构建数据空间,需要研究多源、多模态数据混合存储技术,设计面向多源数据的集成存储方案、面向数据时效性的分级存储方案和面向多模态数据的多元存储方案。 4.2.1 面向多源数据的集成存储 制造企业的生产经营活动产生的数据常常孤立地分布在供应链、生产链、营销链和服务链等异质链条上,这些数据存在不完整、不一致的问题。因此,建立一个统一、稳定、可以反映历史变化的多价值链协同数据空间是当前制造企业数字化转型中的关键任务。ETL(extract-transform-load)将来自不同系统的多源异构数据转化为同构数据,能够大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。数据治理平台基于多维数据库对ETL过程得到的数据进行集成存储,有助于实现高效、准确的数据分析工作。 ETL处理流程包括数据抽取、数据转换、数据清洗和数据加载,数据抽取是从不同的网络、不同的操作平台、不同的数据库、不同的应用中抽取数据的过程,抽取数据源包括企业ERP、CRM等系统。由于不同系统的数据格式存在差异,所以需要定义数据接口对每个源文件的每个字段进行说明。数据转换是对抽取的数据进行过滤、合并、解码和翻译的过程,旨在将抽取的数据转换为可用的有效数据,包括字段名称统一标识、字段范围规定、重复值消除、数据合并、聚合数据汇总等操作。数据清洗旨在消除数据中存在的不一致问题,根据定义的规则对不完整数据、错误数据、冲突数据予以更正或删除,保证后续分析的正确性。数据加载是通过刷新或更新的方式将转换后的数据写入数据治理平台中,刷新是对目标数据进行重写,而更新是将数据更新日志写入数据平台。 制造企业各系统中的数据主要是支持日常经营生产过程的操作型数据,而经由ETL加载到数据治理平台中的数据主要是支持分析挖掘工作的面向主题的多维数据。多维数据库是一种用于存储、查询和分析多维数据的数据库系统,不同于传统关系型数据库,多维数据库通常基于星型模型和雪花模型等复杂的多维数据模型进行数据存储,可以快速地查询和聚合多维数据,提高查询效率和分析速度。 4.2.2 面向数据时效性的分级存储 在多价值链协同运营场景中,系统源源不断地接收来自各价值链产生的大量数据,这些数据可以根据产生的时间划分为实时数据和历史数据。历史数据的数据量巨大,但系统对于历史数据的访问频率较低,对于其响应时间也并无过高要求;而对于访问频率较高的实时数据,虽然需要在较短的时间内响应,但数据量较小。而计算机中的存储结构也有着类似的层级关系,计算机外部存储器容量大但响应较慢,难以支持处理器的运算;而内部存储器响应速度快,但由于成本较高,容量相比外存大大减小。因此本书结合计算机中的存储层级结构,对多价值链数据进行实时数据与历史数据的划分,并根据该划分实现分级存储,从而提高数据存取的效率,也进一步为索引、搜索和关联奠定基础。 实时数据作为最近时间段内产生的数据,属于热点数据,具有极高的时效价值,经常被运用到各种实时场景分析中。内存是计算机的重要部件,也称内存储器或主存储器,用于暂时存放中央处理器中的运算数据以及与硬盘等外部存储器交换的数据,因为内存的读写频率比磁盘更高,与磁盘相比对其进行数据操作的时间更短。目前,除了传统的将数据存储在外存的数据库外,企业也常使用基于内存的数据结构存储系统。在内存中存取数据比从外存中存取效率高,并且支持多种类型的数据结构,更符合实时数据的存储和查询要求。同时,在该类数据库的使用中可以设置键的过期时间,便于淘汰随时间推移的过时数据。因此,对于实时产生的流数据,将其存储在内存数据库中,并构建相应的网格索引和属性索引,可以更好地支持各种实时查询。 实时的订单数据由经纬度、时间和其他属性(如货物类型、订单号等)组成。在基于内存的数据库中,采用集合来存储实时订单数据,集合的键为订单号加时间段,集合的值为此时间段内该订单的物流信息序列,具体处理步骤为:①时间段的划分与归并,即将某一固定时间段内的数据归入同一个时间段,使同一批次的货物在同一时段内具有相同的键。②键的组成,即用时间段转成的时间戳与订单号组成键。③值的组成,即用数据库中支持的有序集合来存储订单物流信息序列,集合中存入的是每条订单数据的时间戳、经纬度坐标及其他属性,如订单类型、订单号等。在有序集合中以采样时间戳作为分数进行排序,值为其他信息拼接而成的字符串。 此外,对于制造业产生......
- 信息
- 前言
- 第1章 绪论
- 1.1 背景与意义
- 1.2 国内外研究现状
- 1.3 研究内容及创新点
- 第2章 制造业多价值链协同数据空间概述
- 2.1 制造业多价值链协同性
- 2.2 制造业多价值链协同数据空间
- 2.3 制造业多价值链协同数据空间体系架构
- 2.4 制造业多价值链协同数据空间安全管理方法
- 2.5 制造业多价值链协同数据空间体系管理方法及关键技术
- 2.6 制造业多价值链协同数据空间适用范围
- 2.7 本章小结
- 第3章 制造业多价值链协同数据全生命周期体系的数据处理方法
- 3.1 数据采集
- 3.2 数据存储
- 3.3 数据分析及应用
- 3.4 数据安全
- 3.5 本章小结
- 第4章 制造业多价值链协同数据空间的关键支撑方法
- 4.1 数据建模
- 4.2 混合存储
- 4.3 快速索引
- 4.4 关联表示
- 4.5 全链搜索
- 4.6 集成演化
- 4.7 本章小结
- 第5章 制造业多价值链协同数据空间的知识发掘和服务方法
- 5.1 知识发掘与图谱构建
- 5.2 制造业多价值链协同数据空间知识引擎架构
- 5.3 基于知识图谱的制造业多价值链知识服务
- 5.4 本章小结
- 第6章 制造业多价值链协同数据空间管理引擎设计与管理系统
- 6.1 制造业多价值链协同数据空间管理引擎设计方法
- 6.2 制造业多价值链协同数据空间管理系统架构
- 6.3 本章小结
- 第7章 制造业多价值链协同数据空间应用实践
- 7.1 应用单位简介
- 7.2 应用情况分析
- 7.3 应用效果验证
- 7.4 本章小结
- 第8章 成果与结论
- 参考文献