首页 大数据👕,技术分享🍎

[blueinfo title="(1)负责收集数据的工具"]Sqoop(关系型数据导入Hadoop)
Flume(日志数据导入Hadoop,支持数据源广泛)
Kafka(支持数据源有限,但吞吐大)[/blueinfo]
[greeninfo title="(2)负责存储数据的工具"]HBase、MongoDB、Cassandra、Accumulo、MySql、Oracle、DB2
HDFS(Hadoop Distribut File System)2.0[/greeninfo]
[yellowinfo title="(3)底层组件"]Apache Common(通用模块)、Avro(序列化成二进制)、OS(Linux、windows。。。)[/yellowinfo]
[redinfo title="(4)通用工具"]Zookeeper分布式协作服务、Oozie工作流流调度系统、Ambari图形化部署、非xml,跟踪集[/redinfo]
[purpleinfo title="(5)分布式计算框架"]MapReduce(通过磁盘离线计算)、Spark(通过内存实时计算)、Storm(实现流式数据计算)、Tez(GAG计算,对MR拆分)、Impala(实现实时交互式计算)、Flink、Slider、Open MPI、HCatalog[/purpleinfo]
[blueinfo title="(6)数据分析处理"]Hive数据仓库:sql语句生成MR作业
Pig工作流引擎:类似sql比MR语法简单
Mahout数据挖掘库:提供了诸多机器学习算法
Java、.net、R、Scala、Solr、Impapla、Ohter ISV[/blueinfo]
[yellowinfo title="(7)结果输出"]经过数据分析处理,输出到BI工具、展示系统
ETL Tools、BI Reporting、RDBMS、OLAP[/yellowinfo]



文章评论