Hadoop狭义指Apacha的一款软件,广义指的是Hadoop大数据生态圈。Hadoop三大组件:HDFS、YARN、MapReduce。
Hadoop是一个生态圈,类似于spring
1、Hadoop发行版本
商业发行版本
2、Hadoop架构变迁
分布式文件存储系统,处在生态圈的底层与核心地位
分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop的地位。
分布式计算引擎;由于自身涉及到模型所产生的弊端,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。
最简单的一个Hadoop集群架构
MapReduce是一个计算框架、代码层面的组件,没有集群之说。
Spark是一款比MapReduce更优秀的计算引擎,
Spark SQL:可以通过写SQL的方式应用计算引擎
Spark Streaming:流式计算,实时计算,要求低延迟的场景(监控大屏、信贷资质审核,搜索推荐等)
MLlib(machine learning):机器学习
GraphX:图处理