资源描述
数据湖建设 解决方案目 录项目概述1总体规划2建设方案3项目建设背景“ 4智 ” 应用基础支撑企业集团大数据智能化经营管理智能 化业务作业智能化医疗健康行业运营智能化解决数据 “汇 ”、 “存 ”、 “管 ”、 “用 ”、 “营 ”难题数据湖及应用平台数据管理和业务应用要求 数据分散 : 基础数据分布在各个应用平台中 , 应用开发商整合能力差 ; 数据管理能力较弱 : 缺乏统一的数据标准管理 、 数据质量管理 、 数据开发管理 、 数据服务管理 、 数据安全管理和监控运维管理等 ; 数据利用能力不强 : 现有数据 无法适应新业务需求 , 同时 历史数据无法并入新的系统再利用 。集团战略要求 集团战略管控数字化 ; 业务运营数字化 ; 产业协同数字化 ; 管理支撑数字化 。“十四五“规划愿景 响应国家“十四五”规划提出的“加快数字发展,建设数字中国”,推进“三医”联动持续深化改革,以“守护生命与健康”为使命,筹划建设“集团城市健康中心”,打造以传统中医药理论为基础,依托现代 科技赋能 ,基于 用户关系 经营,通过 大数据 、实体医疗、网络诊疗平台、药事服务平台和新零售平台等提供防、养、调全渠道 多场景 的健康产品、健康内容、健康定制和健康管理服务,打造一站式 解决目标用户健康问题的创新型健康 服务中台。集团信息化现状分析集团领导市场财务销售运营办公自动化系统三方 OMS生产管理系统全渠道数字化平台移动应用门户 网站ERP系统人力资源系统业务信息系统集团级集团财务系统 业务系统信息化基本形成体系项目管理级公司级1线上线下业务信息化整合工作稳步推进2决策管理和数据分析应用正在迭代完善3集团统一数据管理和应用体系尚未建成4业务运营和管理遇到的问题分析未统一业务口径和数据标准数据质量层次不齐缺乏统一数据管理支撑平台 需方多、变化快 信息化投入较大 , 却不能及时有效了解集团整体业务运营情况 海量业务报表 , 却无法对决策管理提供有效支撑 无法通过企业关键绩效指导决策 大量时间精力投入到数据收集 、 报表制作中 缺乏统一的业务运营口径和指标标准 业务的管理口径和财务口径不一致 , 各部门运营管理信息存在交叉重复 对上级部门运营管理汇报要求不够灵活 , 响应效率低下 ; 对下级单位数据收集不及时 、 不准确 运营管理缺乏综合性系统和完整的数据支撑能力 缺少统一的平台满足决策层、管理层和运营层等对数据应用的各种需求 运营管理需求反复变更、“多对多”的情况, IT服务部门疲于应付 运营管理应用需求类型多、数量多、口径不一和数据质量差等原因,导致开发周期较长,时效性差等问题 业务数据来源分散,缺乏整合统一的基础数据,无法有效支撑决策和管理集团高管层 ( 决策层 )IT服务支撑层业务运营管理层数据孤岛、数据分散总体建设目标以 “ 守护生命与健康 ” 为使命 , 推动企业 数字化转型 ,建立集团数据湖及应用平台 , 全面提升集团智慧化经营决策 管理 能力 。借助 5G、 云计算 、 大数据 、 物联网和 人工智能 等 技术 , 重点解决战略闭环 、 业务运营 、 管理支撑等 业务系统间数据 不通和 数据孤岛 等问题 , 破解 数据 “ 汇 ” 、 “ 存 ” 、 “管 ” 、 “ 用 ” 、 “ 营 ” 等难题 。 通过建立集团统一的数据湖及应用平台 , 提供 数据 汇聚 、 存储 、 治理 、 分析 、 服务 、 共享 、 应用 和 运营 能力 , 夯实 企业 大数据智能化 、 经营管理智能化 、 业务作业智能化 、 医疗健康行业运营智能化的 “ 4智 ” 应用 基础支撑 能力 , 构建 跨业务 、 跨部门 和 跨层级 的 融合应用场景 , 形成 企业 “ 数智化 ” 运行的 智能中枢 ,实现经营状态的 实时监测 , 经营数据的 辅助决策 、 指标的 智能预警预测 , 关键问题的 智慧决策 , 打造集团运行管理闭环与智慧化决策 能力 。总体建设目标数据汇聚能力 数据存储能力 数据治理能力 数据分析能力 数据服务能力 数据应用能力 数据运营能力 离线数据采集 实时数据采集 结构化数据采集 非结构化数据采集 视频数据采集 物联网数据采集 互联网数据采集 手工数据补录采集 数据库数据存储 文件数据存储 图片数据存储 声音数据存储 视频数据存储 关系图谱数据存储 时序数据存储 数据架构管理 数据标准管理 数据建模管理 数据开发管理 数据调度管理 数据质量管理 元数据管理 数据安全管理 数据生命周期管理 统计分析 灵活查询 多维分析 数据挖掘 人工智能 标签管理 指标管理 知识图谱 数据可视化 数据需求管理 资源目录管理 数据服务接口管理 数据共享交换管理 数据报送管理 数据开放管理 数据服务评价 人员管理 用户管理 营销管理 渠道管理 财务管理 风控管理 工程管理 生产管理 监管报送 数据运维管理 数据产品管理 数据资产价值评估 数据资产营销推广 数据资产合作 数据资产价值变现 数据运营考核评价1 2 3 4 5 6 7 总体架构规划 数据架构规划 技术架构规划 应用体系规划 数据治理规划 数据共享规划 平台工具规划 平台建设蓝图规划 建设目标规划数据湖及应用平台 框架体系 、 搭建技术 基础平台 , 实现 C端用户 数据 采集 、 入湖 、 治理和共享服务 , 以 及 支撑企业务 +( 私域流量业务 ) 综合分析 和 智能化应用 , 总结经验教训 , 为 集团数据湖及应用平台 的整体建设奠定基础 。目标基础平台搭建数据治理体系建设数据共享服务建设数据分析应用建设框架体系规划大数据平台 TBDS安装部署数据治理产品安装部署数据共享交换产品安装部署用户数据采集 用户数据建模 用户数据开发 数据质量检查元数据管理数据标准管理用户需求分析 应用设计 数据及应用开发 数据共享与服务对接共享服务需求分析 资源目录梳理 共享服务发布 共享服务申请用户信息调研共享服务调用12345共享服务授权预期成效 : ” 七步走 ” 解决企业面临的数字化转型发展痛点利用大数据技术建立集团统一的数据湖,实现数据采集、存储、处理、分析和服务的统一管理,提高信息和数据的响应时间,提高经营管理工作效率,有利于压缩开支,降低管理成本,推进数字化转型发展。03020406 070503信息烟囱数据分散 利益割据数据保密不全面数据标准不统一管理机制不成体系安全保障不健全数字化转型面临的痛点 ” 七步走 ” 解决问题1 设立专管机构 , 完善管理体系2 整合数据孤岛 , 统一数据标准3 构建数据采集体系 , 打通数据整合通道4 设计数据存储策略 , 提升数据存储效率5 初步构建数据治理体系6 制定数据共享服务策略 , 促进数据融合安全发展7 奠定数据应用基础 , 打造大数据综合应用能力目 录项目概述1总体规划2建设方案3建设总体思路搭建技术基础平台 , 探索平台应用能力第一阶段夯实数据基础 , 推进服务与应用建设第二阶段完善应用体系 , 提升平台智慧能力第三阶段建立数据运营体系,持续优化平台能力第四阶段 数据湖及应用平台建设规划 数据采集技术平台搭建 数据存储技术平台搭建 数据处理技术平台搭建 数据调度技术平台搭建 数据治理技术平台搭建 数据共享技术平台搭建 试点数据域 ( 用户 ) 采集 、 存储 、 治理 、 分析和共享实施 集团与事业部应用建设全面支撑 ( 人员管理 、 用户管理 营销管理 、 渠道管理 、 财务管理 、 工程管理 、 合同管理 、 生产管理 、 风控管理 、 应急指挥 、监管报送 ) 基础分析能力完善 ( 指标 、 标签 、 知识图谱 ) 综合分析应用增强 态势感知能力建设 实时分析应用场景体系建设 算法模型体系建设 AI服务体系化建设 区块链技术场景应用 数据资产运营规划 数据产品体系建设 数据产品价值评估体系建设 数据价值变现体系建设 数据运营安全体系建设 数据采集能力迭代升级 数据治理能力迭代升级 数据分析能力迭代升级 数据应用能力迭代升级 数据共享服务能力迭代升级 算法模型中心健全 AI服务能力迭代升级 场景应用持续推进 数据运营考核体系建设 数据治理体系咨询规划 技术平台能力增强 集团与四大事业部数据入湖 全域数据采集 、 存储 、 治理 、分析和共享体系建设 数据治理体系建设 AI平台搭建与应用探索 基础分析能力建设 ( 指标 、 标签 、 知识图谱 ) 综合分析应用建设 实时分析与应用场景探索 重点应用建设支持 数据湖及应用平台总体架构 ( 构建六个平台 、 四个中心 、 三个保障体系 , 一个统一门户 )运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换 离线数据同步 实时数据同步 数据补录共享监测 共享审计权鉴发布 订阅 认证注册数据源 业务系统 互联网数据 外部数据物联网数据HR系统 OA ERP 主数据 渠道系统 三方 OMS 财务系统 Hadoop 关系数据库 MPP 内存数据库 图数据库 对象数据库时序数据库爬虫离线数据处理 实时数据处理 非结构化数据转化 数据统一调度数据分析平台统计分析多维分析即席查询机器学习数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务 数据产品服务知识图谱服务可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务 库表共享服务 接口共享服务共享服务引擎共享服务管理 共享服务保障文本识别 影像识别语义解析图像识别语音识别 数据服务中心数据需求管理 应用集成 运营可视化数据资源目录管理 租户管理 统一用户 /权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价1234 567 8实时分析9 1011 12业务赋能管理驾驶舱 客户营销 资金管理财务分析 产能预测 风险审计用户分析 绩效考核监管报送13平台管理实时数据区汇聚区临时库 ODS库基础区 主题区 分析区 应用集市区实时数据存储 实时分析处理 实时指标计算当事人财务用户管理营销管理指标库标签库经营分析用户画像数据湖及应用平台分阶段规划运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换 离线数据同步 实时数据同步 数据补录共享监测 共享审计权鉴发布 订阅 认证注册数据源 业务系统 互联网数据 外部数据物联网数据HR系统 OA ERP 主数据 渠道系统 三方 OMS 财务系统 Hadoop 关系数据库 MPP内存数据库 图数据库 对象数据库时序数据库爬虫离线数据处理 实时数据处理 非结构化数据转化 数据统一调度数据分析平台统计分析多维分析即席查询机器学习数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务 数据产品服务知识图谱服务可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务 库表共享服务 接口共享服务共享服务引擎共享服务管理 共享服务保障文本识别 影像识别语义解析图像识别语音识别 数据服务中心数据需求管理 应用集成运营可视化数据资源目录管理 租户管理 统一用户 /权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价1234 567 8实时分析9 1011 12业务赋能管理驾驶舱 客户营销 资金管理财务分析 产能预测 风险审计用户分析 绩效考核监管报送13平台管理实时数据区汇聚区临时库 ODS库基础区 主题区 分析区 应用集市区实时数据存储 实时分析处理 实时指标计算当事人财务用户管理营销管理指标库标签库经营分析用户画像二阶段:夯实 三阶段 : 完善一阶段 : 打基础 四阶段 : 运营事业部数据资源池集团数据资源池实时区实时数据存储 实时分析处理 实时指标计算汇聚区临时库ODS库集团数据健康数据药品数据中药数据省医药数据基础区当事人内部机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目 主题区用户管理营销管理运营管理风险管理财务管理集市区经营分析用户画像风险审计监管报送产能预警财务分析事业部应用分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库 ODS库事业部基础区事业部主题区事业部分析区事业部应用集市区12 3 45612 3 4 5 6数据湖及应用平台数据架构 ( 统一标准 , 构建集团和四大事业部数据湖的六大数据区 )( 1) 数据源 ( 2) 采集 ( 3) 汇聚 ( 6)共享服务( 4) 治理 ( 5) 分析 ( 7) 数据应用标签服务 API实时服务 API数据库共享文件共享数据共享服务API共享离线采集实时采集消息CDCAPI.文件数据库接口补录填报.实时数据源物联感知数据实时营销数据物流数据离线数据源业务系统HR系统OAERP主数据渠道系统三方OMS财务系统外部数据互联网数据数据来源 数据采集平台指标服务 API关系图谱服务 API数据检索服务 API数据安全服务 API数据应用管理驾驶舱客户营销资金管理财务分析产能预测风险审计指挥调度绩效考核监管报送用户分析集团数据湖与事业部四大数据湖之间定位及关系探讨事业部数据资源池集团数据资源池实时区实时数据存储 实时分析处理 实时指标计算汇聚区临时库ODS库集团数据健康数据药品数据中药数据省医药数据基础区当事人内部机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目 主题区用户管理营销管理运营管理风险管理财务管理集市区经营分析用户画像风险审计监管报送产能预警财务分析事业部应用分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库 ODS库事业部基础区事业部主题区事业部分析区事业部应用集市区12 3 45612 3 4 5 6方案一 : 事业部独立建设数据湖 , 集团汇聚整合建湖方案二 : 集团统一建湖 , 事业部数据湖同步和特色发展方案建议 : 集团领导牵头 , 统一标准和统一建湖 方案描述 : 事业部根据自身业务特色构建数据湖和数据治理体系 ,集团数据湖汇聚事业部数据湖数据 , 设计数据标准 , 进行数据治理、 数据分析和数据共享服务 。 优点 : 建设灵活 , 能快速满足各事业部和集团数据湖的应用需求 。 缺点 : 难以统一标准和数据口径 , 多头数据采集 , 后期维护工作量较大 。 方案描述 : 集团数据湖统一标准和数据治理体系 , 统一汇聚 、 治理、 分析和数据共享服务 ; 集团数据湖根据事业部数据需求统一分发数据 , 事业部同步数据和 , 并根据自身特色构建数据湖及应用 。 优点 : 集团与事业部数据标准统一 , 后期管理协调难度较少 。 缺点 : 前期统一难度较高 , 事业部建设灵活度不高 。 先进经验 : 目前信息化领先行业和企业的数据平台能力建设 , 大部分采用集团统一标准 、 统一建设 、 统一管理和统一运营 。 方案建议 : 目前集团和事业部业务系统已较为完备 , 数据湖建设处于起步阶段 , 为集团统一标准和建湖奠定了基础 。目 录项目概述1总体规划2建设方案3建设范围数据湖平台框架体系规划、技术基础平台搭建,集团 C端用户数据 采集、 入湖 、治理、共享服务和用户分析应用 总体架构规划 数据架构规划 技术架构规划 应用体系规划 数据治理规划 数据共享规划 平台工具规划 平台建设蓝图规划 1.数据湖平台框架体系规划3.数据汇聚 4.数据资源中心建设 5.数据治理 6.数据分析2.平台搭建 7.数据共享服务 TBDS基础平台搭 数据治理平台搭建 数据共享服务平台搭建 健康事业部用户数据汇聚 省医药公司 用户数据汇聚 药品事业部 用户数据汇聚 云健康 事业部 用户数据汇聚 信息调研 基础区数据模型设计 主题区数据模型设计 应用数据集市模型设计 数据清洗 、 转换和汇总 数据标准管理 元数据管理 数据质量管理 C端用户分析需求调研 C端用户数据分析设计 C源用户数据分析开发 C端用户数据资源目录梳理 C端用户数据共享发布建设总体思路事业部用户数渠道分析用户月活用户日活地域分析时间分析数据入湖及治理 数据分析应用数据可视化FineReportFineBI用户信息数据用户标签模型填报数据 、 参数数据采集数据建模数据清洗数据加载数据整合数据汇总数据源健康事业部省医药公司药品事业部智慧零售达人管理微信公众号后台医疗器械 app电商 系统数据 excelerp孩子王电商 saas云健康电商平台用户电商平台用户门店用户数据生意参谋数据共享服务用户资源目录梳理用户数据目录挂接用户数据共享发布逻辑架构 : 搭建基础平台 , 以集团 C端用户需求为试点打通数据湖链路 本期范围运维保障体系安全保障体系标准规范体系保障体系数据运营中心数据共享开放平台数据汇聚平台存储计算平台数据处理平台数据共享交换 离线数据同步 实时数据同步 数据补录共享监测 共享审计权鉴发布 订阅 认证注册数据源 业务系统 互联网数据 外部数据物联网数据HR系统 OA ERP 主数据 渠道系统 三方 OMS 财务系统 Hadoop 关系数据库 MPP内存数据库 图数据库 对象数据库时序数据库爬虫离线数据处理 实时数据处理 非结构化数据转化 数据统一调度数据分析平台统计分析多维分析即席查询机器学习数据挖掘数据治理平台数据质量管理元数据管理数据标准管理数据模型管理数据生命周期管理数据安全管理主数据管理AI中心数据资源中心指标服务标签服务 数据产品服务知识图谱服务可信计算服务数据沙箱服务多方安全计算服务数据检索服务文件共享服务 库表共享服务 接口共享服务共享服务引擎共享服务管理 共享服务保障文本识别 影像识别语义解析图像识别语音识别 数据服务中心数据需求管理 应用集成运营可视化数据资源目录管理 租户管理 统一用户 /权限数据统一门户数据产品管理数据资产价值评估数据资产营销推广数据资产价值变现数据运营维护运营考核评价1234 567 8实时分析9 1011 12业务赋能管理驾驶舱 客户营销 资金管理财务分析 产能预测 风险审计用户分析 绩效考核监管报送13平台管理实时数据区汇聚区临时库 ODS库基础区 主题区 分析区 应用集市区实时数据存储 实时分析处理 实时指标计算当事人财务用户管理营销管理指标库标签库经营分析用户画像数据架构事业部数据资源池集团数据资源池实时区实时数据存储 实时分析处理 实时指标计算汇聚区临时库ODS库集团数据健康数据药品数据中药数据省医药数据基础区当事人内部机构产品合约采购生产销售库存营销地理区域财务运输事件计划项目 主题区用户管理营销管理运营管理风险管理财务管理集市区经营分析用户画像风险审计监管报送产能预警财务分析事业部应用分析区指标库标签库关系图谱事业部实时区事业部汇聚区临时库 ODS库事业部基础区事业部主题区事业部分析区事业部应用集市区12 3 45612 3 4 5 6( 1)数据源 ( 2) 采集 ( 3) 汇聚 ( 6) 共享服务( 4) 治理 ( 5) 分析 ( 7) 数据应用标签服务 API实时服务 API数据库共享文件共享数据共享服务API共享离线采集实时采集消息CDCAPI.文件数据库接口补录填报.实时数据源物联感知数据实时营销数据物流数据离线数据源数据来源 数据采集平台指标服务 API关系图谱服务 API数据检索服务 API数据安全服务 API健康事业部用户数据省医药公司用户数据药品事业部用户数据云健康事业部用户数据数据应用管理驾驶舱客户营销资金管理财务分析产能预测风险审计指挥调度绩效考核监管报送用户分析本期范围1.数据湖平台框架体系规划行业最佳实践平台提升机会专家知识战略定位应用体系规划规划原则调研问卷调研访谈现状调研 评估建议 分项规划目标 现状期望 问题总体评估平台提升建议提升机会分析总体架构规划技术架构规划数据架构规划数据共享服务规划运维体系规划蓝图规划与演进蓝图规划与演进平台工具规划数据治理规划业务与 IT部门输入服务提供商输入与分析2、 基础技术平台搭建需求沟通1 环境准备2 平台安装部署3 平台部署验证4 平台优化完善5 TBDS部署需求沟通 数据共享交换部署需求沟通 数据治理部署需求沟通 网络访问需求沟通 服务器确定 网络环境确定 端口环境确定 操作系统确定 软件版本确定 操作系统安装部署 TBDS安装部署 数据共享安装部署 数据治理安装部署 平台功能验证 平台访问和服务验证 平台系统接口验证 外部接口验证 网络访问验证 平台实施需求支持 应用功能优化完善 系统运行问题处理 平台搭建流程预期成效用户分析平台搭建完成 , 操作使用正常具备数据湖实施支撑能力具备完整平台运维文档3、数据采集汇聚提供异构数据源之间的数据同步能力 , 实现集团 C端用户整库迁移 、 全量数据汇聚 、 增量数据汇聚 、 ETL任务管理和监控运维 。数据汇聚架构数据汇聚流程汇聚范围确定1 汇聚信息整理2 数据汇聚开发3 任务调度配置4 5 汇聚业务范围确定 汇聚系统范围确定 汇聚表范围确定 汇聚手工数据范围确定 系统信息整理 数据字典整理 接口信息整理 网络信息整理 汇聚调度任务整理 汇聚调度任务基础信息配置 汇聚调度任务依赖触发配置 任务调度测试验证 调度任务监控配置 汇聚任务监控预警 汇聚监控任务故障处理 日常运维巡检 汇聚监控运维 用户信息配置 数据源配置 汇聚区建表配置 数据汇聚任务配置与开发 数据汇聚任务测试 数据汇聚查看和问题处理 预期成效数据汇聚需求数据源汇聚知识库 采集汇聚引擎采集汇聚知识库汇聚知识库数据源 管理 数据采集开发管理 数据采集调度管理 数据采集监控预警汇聚区数据库文件CDC日志消息接口临时区ODS数据汇聚平台 健康事业部省医药公司药品事业部智慧零售达人管理微信公众号后台医疗器械电商系统数据erp 孩子王 电商平台智云健康电商平台用户电商平台用户 门店用户数据 生意参谋4、 数据体系建设 总体流程信息调研(ID)业务需求分析应用概要设计项目前期准备业务调研 (BD)业务需求编写应用开发 系统软硬件资源安装系统测试与验收系统管理与维护项目结束回顾业务访谈项目管理 ( Project Management)应用详细设计前端界面设计逻辑数据模型设计物理数据模型设计数据接口规范设计映射 /ETL/实时数据开发应用设计需求分析 系统开发系统设计 上线与维护数据治理 4、 数据资源中心建设 步骤一 : 信息调研工作内容 了解企业的整体 IT架构和发展规划 了解企业的当前业务系统的现状 了解 3-5年内业务系统建设的规化 了解企业针对信息系统建设标准化的规划 详细查看每个实体业务含义和数据特征、并且进行分类和取舍定义 详细查看每个字段业务含义和数据物理特征、进行分类和取舍定义 掌握针对人员、组织机构、客户、营销、产品、渠道、合同、财务、生产、 ERP等定义重要业务编码规则 仔细整理业务系统的代码编码、主外键关联关系 检查客户提供的重要业务编码规则是否在系统中完整执行 检查业务系统的代码的一致性和完整性 , 并且做出代码映射关系 基于实体和字段的物理特征 , 给出初步的数据质量审核报告 基于现有 ID情况 , 结合业务需求调研 , 进行简要的缺口分析识大局找关系 掌握业务系统之间的业务功能划分 掌握业务系统之间的数据交换 、 流向 、 以及数据衍生关系 掌握现有分析系统从业务系统之间进行数据抽取的内容和方式 掌握现有分析系统和业务系统以及应用系统的数据回送情况看细节查质量调研流程1.收集源系统源 :系统需求文档 、操作手册 、 表结构说明书 、 代码值 、 样本数据 、建库脚本1.了解系统系统架构 、功能 、 业务处理及其它系统间的关系2.了解系统的数据量 、改造计划 、 软硬件平台3.了解数据表的业务含义 , 并初步筛选出关注的表4.筛选出需求相关的表1.通过分析样本数据验证前期调研的结果 、 分析表间关系2.在复原源系统 ER图的过程中 了解表 之 间关系 、 表与 字段的业务含义1.根据调研结果及入模型策略筛选入仓范围2.基于信息调研结果编写信息调研报告1.分系统确认信息调研报告 : 主要确认如模型范围2.评审信息调研报告准备 访谈 分析 评审1.了解源系统的字段的业务含义2.只调研初步筛选关注的表(1) 生产系数据统结构与资料不一致怎么办 ?(2) 源系统设计人员不配合怎么办 ?(3) 入模型范围 如何确定 ?(4) 资料收集资料收集系统与表级调研字段级调研样本数据分析调研报告编写调研报告评审1234564、 数据资源中心建设 步骤二 : 数据模型设计方法物理模型(技术 )逻辑模型(业务 )概念模型参考模型 行业数据模型选择 :行业主题模型数据主题与主要数据概念客户化逻辑数据模型客户化物理数据模型业务访问数据模型C o n sist en t C o mpli a n ce I n f r a st r u ct u r e As su r a n ceO p e r a t io n a l An a ly sis & R ep o r t in g E n h a n cemen tE n t er p r ise P er f o r m a n ce M a n a g emen t E n a b lemen tF in a n cia l P r o c es s O p t imi za t io nF in a n cia l R ep o r t in g & An a ly sis I m p r o v em en tAs s et L ia b ilit y M a n a g emen tAc t iv e L o a n P o r t f o lio L im it a n d C o lla t er a l M a n a g emen tO p e r a t io n a l R isk & O p e r a t io n a l VaRAn t i F r a u d & M o n ey L a u n d er in gM a r k et R isk & M a r k et Va RC r e d it R isk & C r e d it VaRP er f o r m a n ce M easu r em en t & C a p it a l Al lo cat io n ( R AR O C )C o mpli a n ce & D isclo su r e( Ba sel I I )C h a n n el M ig r a t io n P r o d u ct D e v elop men t & P a ck a g in gD ist r ib u t io n C h a n n el O p t imi za t io nP a y men t An a ly sisP er f o r m a n ce M a n a g emen tSal es & P er f o r m a n ce R ep o r t in gC u st o me r E q u it y C u st o me r Ac q u isit io nC u st o me r R et en t io nT a r g et M a r k et in gO r g a n ic Gr o wt hE v en t & C a mp a ig n M a n a g emen tCus tom e r M a na ge me ntO per a tio nsM a na ge me ntRi skM a na ge me ntFi na nce &Per fo r ma nceM a na ge me ntFr ont - li ne U ser s, Cu st omer s, Part n er sOpe rat io nal B I UsersB usiness Us er s Pow er User sIT ,Mi ne rs视图集市报表业务需求数据要素清单数据整合映射映射制造业企业行业模型数据湖数据库4、 数据资源中心建设 步骤二 : 数据区定位与数据模型设计流程数据资源中心各区定位模型设计步骤汇聚数据区 源系统分类 数据不整合 保留长期历史数据 保留明细数据 全量数据 增量数据基础数据区 主题分类 数据整合 保留长期历史数据 保留明细数据主题 /分析数据区 主题分类结合维度建模 数据整合 保留一定周期的历史数据 保留部分明细 /汇总加工数据集市区 维度建模为主 数据整合 保留特定业务需求的历史数据 保留部分明细 /汇总加工数据面向数据 面向需求 从业务的角度出发 满足公共需求 迭代开发全部原始数据 核心数据 、 清洗融合后 汇总与分析数据 特定需求数据(1)前期准备项目管理 : 文档 、 沟通 、 问题跟踪 、 回顾 、 验证 、 测试 、 认可 方法技术工具模板经验业务知识(2) 信息调研(6)物理模型设计(3)构建主题模型 (4)构建概念设计(5)逻辑模型详细设计逻辑模型设计(7)设计评审/验证物理模型实现 : ETL开发4、数据资源中心建设 步骤二:基础区数据模型设计行业主题模型设计参考 用户模型设计部分参考当事人偏好当事人偏好频率当事人偏好类型当事人偏好联系事件当事人偏好媒介类型当事人偏好当事人当事人偏好当事人角色当事人偏好地点当事人偏好地点角色当事人偏好地址地理区域 地址当事人偏好语言当事人基于成熟行业模型蓝本 , 构建集团 C端用户基础数据模型 , 融合集团和事业部内外部数据 、 规避变化 、 形成统一的当事人数据视图 。线下活动数据订单编号商品名称订单金额买家 ID收货人姓名收货地址联系电话发票抵扣券订单创建时间微信行为数据扫描二维码关注公众号微信 ID昵称公众号留言打开微页面注册会员来源渠道关注公众号访问活动微页面提交活动表单姓名手机号邮箱数据 采集 、 数据清洗微信 openidEmail MAC华东地区基本信息 :男性 30岁微信 unionid手机号码 CookieQQ用户 ID:行为轨迹 :会员信息 :会员等级 会员积分会员权益电商订单数据 用户在不同平台以不同的 身份留下行为轨迹 。 通过 建立ID 关联机制 , 在基础区进行 数据建模 和 标准化 , 在不同渠道的身份对应到唯一的独立身份 , 不 断累积用户的行为 “ 像素 ” 。 在基础区建模的基础上 , 根据用户特征 形成清晰的 用户360画像 。4、 数据资源中心建设 步骤二 : 用户标签数据模型设计线上媒体数据Cookie访问行为记录手机号车型页面停留时间试驾时间姓名城市数据 采集 、数据清洗数据 采集 、 数据清洗数据 采集 、 数据清洗用户画像主题建模ID识别基础区建模数据标准化【 订单 】 女装 无缝羽绒长大衣 409125 金额 : 1299元收货地址 : 上海市 X区 XX大街手机号 : 138*8271购买时间 : 2018/01/11 09:21:21沟通时间: 2018/01/04 12:18:00 所在渠道:小程序商城手机号: 138*8271咨询问题:倍舒暖与 HEATTECH区别【 订单 】 童装 Ultra Stretch 起居套装 414607 下单时间 : 2018/01/31 20:22:00下单门店 : 上海淮海中路旗舰店订单金额 : 129元付款方式 : 支付宝2017/10/21 19:40:22 关注公众号微信昵称 : skyfly001微信 OPENID: nsisuykksikqy阅读 “ U系列 2019春夏款 Lookbook” 点击菜单 “ 会员福利 -50元心意券 ”阅读 “ 2018年代表作 ” 文章点击菜单 “ 年货买买买 ”点击商城 -男装 -HEATTECH, 访问某倍舒暖商品详情页收藏男装 HEATTECH 螺纹圆领 T恤 413314 浏览新春新品活动页访问时长 00:21:34 跳出电商平台自有平台客服线下门店静态标签流程标签模型标签预测标签性别 地域 年龄职业 婚否 有孩相对稳定的信息 、 人口学属性 、 身份属性根据行为与轨迹 、 自定义规则 , 自动添加参与 X活动 浏览 X页面 报名领取权益 线上消费 线下消费教育水平依据属性行为 、 计算得出的客户标签重要价值客户 品类偏好 -童装30天活跃度 -120分 购买力 -高利用算法训练模型得到的预测标签预测流失风险 -低需求推荐 -限时特优 -女装复购可能预测 -高情感 产品 活动信息 偏好 偏好场景偏好销售 价格终端 体系情感 视觉 促销卖点 系统 活动关键 衍生词 品消费者维度人口 认知信息 信息产品维度基本 功能信息 卖点内容场景地点 社交 文化类型 属性 氛围4、 数据资源中心建设 步骤二 : 用户标签设计源数据 标签构建 标签体系ETL知识库 ETL调度管理 ETL任务管理日志管理 负载管理 ETL监控4、 数据资源中心建设 步骤三 : 数据开发体系框架追加清洗 、 转换和标准化汇总加载基础数据区临时区应用数据集市区实时数据区数据汇聚平台主题区ODS库汇总提炼加工任务文件加载任务应用数据加工任务实时数据处理文件检查任务数据汇聚加工任务数据清洗转换任务数据质量检查任务数据抽取加载任务数据治理任务数据处理任务抽取加载任务数据质量管理业务检核任务文件监听抽取触发定时元数据管理库实时数据采集数据库主动采集数据文件采集消息、接口追加清洗 、 转换和标准化分析区提炼提炼提炼ETL开发管理ETL任务管理数据汇聚平台元数据加载任务4、 数据资源中心建设 步骤三 : 数据开发流程与支撑工具数据开发准备1 建库建表2 数据映射3 ETL配置开发4 5 建库建表环境准备 开发系统准备 配置文件准备 信息调研结果 数据模型成果 . 创建数据库 创建数据库用户 创建数据表 数据库表赋权 单元测试模板准备 单元测试执行 单元测试报告 单元测试 6 ETL调度配置 7 系统集成测试 表映射 字段映射 代码映射 关联过滤条件映射 数据开发参数配置 数据映射导入 数据开发配置 公共代码配置 脚本编写调试 调度任务整理 调度任务基础信息配置 调度任务依赖触发配置 调度任务测试验证 集成测试模板准备 集成测试执行 集成测试报告 数据开发流程数据开发工具支撑4、 数据资源中心建设 步骤四 : 数据统一调度管理邮件短信外部管理应用ETL AutomationRepositoryETL调度平台管理与控制模块知识库模块 Master模块消息接口功能接口Agent模块实时监控 系统管理 统计分析 控制台系统插件文件监控 定时任务 BTEAgent1 Agent2 Agent nPrimary Standby一站式开发平台数据治理 平台其他工具调度程序 生成器历史明细引擎元数据数据质量数据标准数据生命周期批量接口直连接口Cube构建引擎数据加载 数据同步 数据卸载 质量检查清洗融合 分析汇总 数据挖掘 机器学习触发5、 数据治理建设 : 数据标准管理数据标准设计流程1. 标准框架1. 数据主题2. 设计范围3. 优先策略4. 工作重点5. 配合支持6. 2. 现状调研1. 现有定义2. 使用习惯3. 问题梳理4. 现状分析5. 参考文档6. 3. 标准设计1. 信息大类2. 信息小类3. 信息项4. 数据类型5. 重要规则6. 4. 标准映射1. 系统范围2. 应用领域3. 数据表4. 数据字段5. 数据取值6. 5. 标准执行1. 影响分析2. 范围 /顺序3. 系统改造4. 新建系统5. 手工补录6. 6. 维护反馈1. 标准发布2. 管理机制3. 工作流程4. 维护增强5. 配套工具6. 标准范围含哪些?目前的状况如何 ?标准应该什么样 ?这些内容都在哪儿 ?标准应该如何执行 ?如何维护理标准 ?数据标准工具支撑 基础标准管理 : 为实体及属性设置标准 统计标准管理 : 为统计指标设置标准 机构清单管理 : 为层级化实体设置标准 公共代码管理 : 引入国家 、 行业或企业自定义的代码标准 业务术语管理 :
展开阅读全文