搜索
您的当前位置:首页正文

初识Hadoop

来源:二三娱乐

Hadoop的学习有一段时间了,把本地的笔记整理之后写入简书,为了长久的保存,也为了与志同道合者共同学习。

Hadoop框架

Hadoop是一个用于分布式存储与计算的软件库,主要包括四部分:
HDFS:分布式文件系统,是存储在集群上的分布式的逻辑的文件系统。HDFS集群主要包括NameNode节点和DataNode节点,NameNode中存储的数据比作一本书的目录,那么DataNode中的数据就是书的内容。
Yarn:Yarn是Hadoop2.0之后加入的模块,是Hadoop集群的资源管理器,包括ResourceManager和NodeManager。
MapReduce:基于Yarn框架的Hadoop运算模块。
Common:支持其他部分的公共模块。

进程的通信端口(一般设置)

NameNode:50070
DataNode:50075
SecondaryNameNode:50090
HDFS:9000
MapReduce:9001

Hadoop的三种安装模式

本地模式(Standalone):这种模式在一台主机上运行,不需要任何配置,没有分布式文件系统,使用本地文件系统,该模式也没有守护进程。

伪分布模式(Pseudodistributed):这种模式也是在一台主机上运行,需要在$HADOOP_HOME/etc/hadoop/目录下修改配置信息,包括core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml.该模式可以包括Hadoop完全分布模式的所有守护进程,如NameNode、SecondaryNameNode、DataNode、ResourceManager、NodeManager,与完全分布模式不同的是,所有的进程都是在一台及其上启动,所以可以说伪分布模式就是完全分布模式的一种。

完全分布模式(Fully Distributed):搭建标准的完全分布模式最少是五台主机,NameNode和SecondaryNameNode分别在不同的一台主机上,其他三台主机搭建DataNode节点,ResourceManager与NameNode在同一台主机,NodeManager与DataNode在同一台主机。完全分布模式的配置文件跟伪分布模式相似,除伪分布模式的配置文件外,还有同一目录下的slaves文件设置DataNode节点的主机名,以上配置文件目录在各个主机上均相同。根据以上配置,在NameNode所在主机上启动的进程有NameNode、RedourceManager,在DataNode所在主机启动的进程有DataNode、NodeManager,在SecondaryNameNode所在主机只启动SecondaryNameNode进程。

Top