Hadoop项目的其它组件

  • 2020 年 09 月 09 日
  • 51次
  • 202 字
  • 暂无评论

(1)负责收集数据的工具
Sqoop(关系型数据导入Hadoop)
Flume(日志数据导入Hadoop,支持数据源广泛)
Kafka(支持数据源有限,但吞吐大)

(2)负责存储数据的工具
HBase、MongoDB、Cassandra、Accumulo、MySql、Oracle、DB2
HDFS(Hadoop Distribut File System)2.0

(3)底层组件
Apache Common(通用模块)、Avro(序列化成二进制)、OS(Linux、windows。。。)

(4)通用工具
Zookeeper分布式协作服务、Oozie工作流流调度系统、Ambari图形化部署、非xml,跟踪集

(5)分布式计算框架
MapReduce(通过磁盘离线计算)、Spark(通过内存实时计算)、Storm(实现流式数据计算)、Tez(GAG计算,对MR拆分)、Impala(实现实时交互式计算)、Flink、Slider、Open MPI、HCatalog

(6)数据分析处理
Hive数据仓库:sql语句生成MR作业
Pig工作流引擎:类似sql比MR语法简单
Mahout数据挖掘库:提供了诸多机器学习算法
Java、.net、R、Scala、Solr、Impapla、Ohter ISV

(7)结果输出
经过数据分析处理,输出到BI工具、展示系统
ETL Tools、BI Reporting、RDBMS、OLAP


版权属于:hierarch

本文链接:https://hiea.top/archives/24.html



—— 暂无评论 ——

OωO