针对空间科学大数据的快速检索需求,提出了分布式区域检索算法。算法主要包括四维空间科学数据的索引方法和分布式四维空间科学数据的索引架构两部分。在KTS存储结构下,通过基于立方体的Block-Grid三维网格剖分方法建立两级空间索引结构,包括分布式节点间的全局索引和分布式节点内的局部索引;在分布式系统架构下,确定了索引在分布式主从节点的分布策略以及数据在分布式环境下的容错机制。基于Hadoop基础架构设计了NSSC-Hadoop系统,通过多组试验数据测试算法效率,并与直接基于Hadoop无索引遍历数据方式相比较,数据检索效率提高了将近50倍,随着数据量的增大,算法优势会更加明显。
1
Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架,具有最高的摄取率。虽然Storm是无状态的,它通过Apache ZooKeeper管理分布式环境和集群状态。它很简单,您可以并行地对实时数据执行各种操作。”
1
Apache Storm 2.1.0版本(源码) Apache维护项目,由Twitter开源 官方原版 编译模块时使用 官网下载过慢 保留备用
2021-01-28 04:32:14 10.74MB storm 源码 实时大数据 分布式计算
1
最全最详细的flink 中文教程,详细介绍各个接口,并附带demo(一千多页pdf) 最全最详细的flink 中文教程,详细介绍各个接口,并附带demo(一千多页pdf)
2020-01-03 11:20:05 11.23MB flink 大数据 分布式 框架
1
2017年全国百强县市统计数据、分布专题地图,可用于研究全国百强县市的空间分布格局等研究
2019-12-21 20:34:04 1.17MB 2017 百强县市 统计数据 分布地图
1
本文档从虚拟机安装到jdk和hadoop环间搭建详细讲解了hadoop完全分布式的安装以及配置过程
2019-12-21 19:44:55 1.1MB 大数据 分布式 完全分布式
1