本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统环境)以及在这种环境中的数据构造。主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。 本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的发展 1 1.1 演化 1 1.2 直接存取存储设备的产生 2 1.3 个人计算机/第四代编程语言技术 3 1.4 进入抽取程序 3 1.5 蜘蛛网 4 1.6 自然演化体系结构的问题 5 1.6.1 数据缺乏可信性 5 1.6.2 生产率问题 8 1.6.3 从数据到信息 10 1.6.4 方法的变迁 11 1.7 体系结构设计环境 12 1.7.1 体系结构设计环境的层次 13 1.7.2 集成 14 1.8 用户是谁 15 1.9 开发生命周期 15 1.10 硬件利用模式 16 1.11 建立重建工程的舞台 16 1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 37 2.9 数据仓库—标准手册 41 2.10 审计和数据仓库 41 2.11 成本合理性 41 2.12 清理仓库数据 42 2.13 报表和体系结构设计环境 42 2.14 机遇性的操作型窗口 43 2.15 小结 44 第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库和数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59 3.5 规范化/反规范化 60 3.6 数据仓库中的快照 65 3.7 元数据 66 3.8 数据仓库中的管理参照表 66 3.9 数据周期 67 3.10 转换和集成的复杂性 70 3.11 触发数据仓库记录 71 3.11.1 事件 72 3.11.2 快照的构成 72 3.11.3 一些例子 72 3.12 简要记录 73 3.13 管理大量数据 74 3.14 创建多个简要记录 75 3.15 从数据仓库环境到操作型环境 75 3.16 正常处理 75 3.17 数据仓库数据的直接访问 76 3.18 数据仓库数据的间接访问 76 3.18.1 航空公司的佣金计算系统 76 3.18.2 零售个性化系统 78 3.18.3 信用审核 80 3.19 数据仓库数据的间接利用 82 3.20 星型连接 83 3.21 小结 86 第4章 数据仓库中的粒度 87 4.1 粗略估算 87 4.2 粒度划分过程的输入 88 4.3 双重或单一的粒度? 88 4.4 确定粒度的级别 89 4.5 一些反馈循环技巧 90 4.6 粒度的级别—以银行环境为例 90 4.7 小结 95 第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言接口 99 5.9 数据的高效装入 99 5.10 高效索引的利用 100 5.11 数据压缩 101 5.12 复合键码 101 5.13 变长数据 101 5.14 加锁管理 102 5.15 单独索引处理 102 5.16 快速恢复 102 5.17 其他的技术特征 102 5.18 DBMS类型和数据仓库 102 5.19 改变DBMS技术 104 5.20 多维DBMS和数据仓库 104 5.21 双重粒度级 109 5.22 数据
2021-08-14 22:51:57 6.66MB 数据仓库
1
Oracle专家对现在的非结构化数据存储及大数据应用的经典分析及讲解。可以快速开阔您的视野。现在分享给需要的朋友。
1
中国非结构化数据中台实践白皮书
非结构化数据中台实践白皮书.pdf
2021-07-23 09:02:14 2.34MB 智慧城市 大数据 互联网
非结构化数据中台白皮书V2-文字版
2021-07-19 19:06:53 41.01MB 大数据
1
全球经济增速下滑,叠加疫情影响,企业面临的外部环境严峻。同时,用户需求 多元化,企业战略重心由以产品为中心转变为以用户为中心。多方因素使得企业 面临商业模式的重塑,企业经营由过去粗放式的流量扩张向精细化运营转变,需 要借助数字化实现加速转型,实现降本增效,提升企业竞争力。 需求驱动数字化转型的核心是数据。近年,互联网&移动互联网的发展产生大量数据。同时,云计算、人工智能、5G、物联网技术的发展,推动企业数据治理能力提升,使得数据驱动业务增长成为可能。技术驱动数字化转型加速
2021-06-14 18:01:56 3.43MB 大数据 人工智能 云计算 5G
使用spring boot+Elasticsearch 7.9.1+kibana 实现对word,pdf,txt等文件的非结构化数据全文内容检索
1
PostgreSQL与MongoDB处理非结构化数据性能比较
2021-05-30 18:04:35 1.55MB MongoDB PostgreSQL 性能比较
某市医院(以下简称医院)是集医疗、教学、科研、预防为一体的现代化国家三级甲等综合医院。医院现有A、B、C三个主体院区,编制床位1 500张,开放病床3000张。在领导班子的带领下,医院全面实施“数字化医院”建设,首创医疗质量管理信息系统、建立城乡协同医疗服务网络。医院作为某市的龙头医院,其整体业务呈现快速增长的态势,当前医院正在扩建新的住院病区,随着住院床位数的增加,医院的业务必然会有一个明显的增长,而医院的存储基础架构已经相对老化,其现有的EMC系列存储已经表现出性能瓶颈,医院当前的核心数据库存在性能不均衡的情况,如果要求应用软件开发商进行软件和数据库性能调优,可能需要花费大量人力物力,但却不能保证调优的效果。医院业务量的增涨带来了数据量的增张,PACS系统海量的非结构化数据安全高效的存储是目前亟需解决的问题,在做好非结构化数据存储的基础上,结合结构化数据存储与Apache Spark数据分析处理引擎对接实现临床操作和研发两个方向的大数据分析,从而更好的服务于病人并且促进医疗行业从业人员专业技能的提升,实现数字化医院为全民健康奠定基础。
2021-05-25 16:02:13 1.51MB 智慧医疗 云存储 数字医院 数据安全
1、银行数据全生命周期管理探讨 2、海量非结构化数据特点及使用 3、海量非结构化数据技术要点与实现