Hadoop2.0核心模块

  • 2020 年 09 月 09 日
  • 54次
  • 301 字
  • 暂无评论

(1)HDFS: 分布式文件系统
Hadoop实现了一个分布式的文件系统,HDFS为海量的数据提供了存储。HDFS是基于节点的形式进行构建的,里面有一个主节点NameNode,他在机器内部提供了服务,NameNode本身不干活,NameNode将数据分成块,只是把数据分发给从节点,交由子节点来进行存储

(2)YARN: 资源管理系统
分布式集群资源管理框架,管理者集群的资源(Memory,cpu core), 合理调度分配给各个程序(MapReduce)使用。主节点:resourceManager掌管集群中的资源,从节点:nodeManager管理每台集群资源。

(3)MapReduce: 离线计算框架
基于YARN的大型数据集并行处理系统。是一种计算模型,用以进行大数据量的计算。Hadoop的MapReduce实现,和Common、HDFS一起,构成了Hadoop发展初期的三个组件。

(4)Common
包括Hadoop常用的工具类,由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。


版权属于:hierarch

本文链接:https://hiea.top/archives/23.html



—— 暂无评论 ——

OωO