`
yu06206
  • 浏览: 109970 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

hadoop环境配置——(集群版)

阅读更多

 

     这个寒假我们根据自己的摸索,我们克服了很多困难,最后终于搭建起了属于我们自己的云,虽然我们的“小云”经常出一些莫名其妙的问题,但是我觉得对我们来说她很有意义,写这篇博客分享一下那些天我们一起搭建的云,希望对那些想要搭建hadoop集群的朋友有帮助!

hadoop集群配置的步骤:

(1)修改机器的IP地址等信息

首先要分配集群机器的IP,给每台机器绑定IP,至于怎么绑定IP大家可以自己查资料,以我们的集群为例,我们总共准备了十台机器,依次将机器的IP地址改为192.168.1.2-192.168.1.11,

然后是确定namenode,secondarynamenode和datanode(namenode机器的性能要好一点,因为它是这个集群的大脑),我们是选定11号机器为namenode,10号机器作为secondarynamenode,其他的为datanaode

(2)配置namenode的hosts文件

命令:sudo gedit /etc/hosts

修改文件如下:

 

127.0.0.1 localhost
127.0.1.1 ubuntu.ubuntu-domain ubuntu
192.168.1.11 master
192.168.1.7 s7
192.168.1.4 s4
192.168.1.2 s2
192.168.1.3 s3
192.168.1.5 s5
192.168.1.6 s6
192.168.1.8 s8
192.168.1.9 s9
192.168.1.10 s10
 
# The following lines are desirable for IPv6 capable hosts
::1     ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
 

 

(3)配置namenode的masters和slaves文件

 

cd /usr/local/hadoop

命令:sudo gedit conf/masters

修改如下:

master

命令:sudo gedit conf/slaves

 

s2
s3
S4
s5
S6
S7
S8
S9

 

 

 

(4)配置namenode的core-site、mapred-site、hdfs-site文件

命令:sudo gedit conf/core-site.xml

 

 <configuration>   
  <property>   
      <name>fs. default .name</name>   
        <value>hdfs:// master :9000</value>    
    </property>   
   <property>   
         <name>dfs.replication</name>    
         <value>1</value>    
  </property>   
   <property>   
 

 

 


hdfs:// master :9000表示namenode的主机和端口

dfs.replication表示hdfs中文件备份个数。

命令:sudo gedit conf/mapred-site.xml

 

 <configuration>   
        <property>    
           <name>mapred.job.tracker</name>   
            <value> master :9001</value>    
        </property>   
   </configuration>  
 

 

 mapred.job.tracker表示JobTracker的主机和端口;

命令:sudo geidt conf/hdfs-site.xml   

 

property>   
        <name> dfs.name.dir </name>   
        <value> /home/hadoop/hdfs/name </value>   
   </property>   
    
   <property>   
        <name> dfs.data.dir </name>   
        <value> /home/hadoop/hdfs/data </value>   
   </property>   

 

 

dfs.name.dir 表示 NameNode 持久存储名字空间及事务日志的本地文件系统路径。

dfs.data.dir表示 DataNode 存放块数据的本地文件系统路径   

 (5)从namenode远程拷贝上述文件给所有的datanode

拷贝hosts给datanode

命令:scp /etc/hosts hadoop@datanode名:/etc/hosts

拷贝core-site.xml给datanode

命令:scp conf/core-site.xml hadoop@datanode名:/usr/local/hadoop/conf/core-site.xml

 拷贝mapred-site.xml给datanode

命令: scp conf/mapred-site.xml hadoop@datanode名:/usr/local/hadoop/conf/mapred-site.xml

拷贝hdfs-site.xml给datanode

命令:scp conf/hdfs-site.xml hadoop@datanode名:/usr/local/hadoop/conf/hdfs-site.xml

(6)在namenode上生成公钥,远程拷贝到datanode上,实现无验证登陆

 1.  生成公钥

命令: ssh-keygen -t dsa -P "" -f ~/.ssh/id_ r sa    

 2.  远程拷贝

命令: scp  ~/.ssh/id_rsa.pub hadoop@s2  ~/.ssh/    

 3.  data结点上添加到收信任列表

命令: cat  ~/.ssh/id_rsa.pub >>  ~/.ssh/authorizedkeys

(7)集群内节点的连接测试

命令:ssh datanode名

如果能从namenode无验证登录到所有的datanode上,那么说明集群实现了无验证登陆

(8)配置SecondaryNamenode

修改masters 文件,改为 s10

修改hdfs-site.xml 文件

 

<property> 
          <name>dfs.http.address</name> 
          <value> 192.168.1.11 :50070</value> > 
</property>
 

 

(9)集群启动和停止的测试

1.namenode启动之前做一次 block 负载均衡

 命令:sudo gedit  conf/hdfs-site.xml

修改如下

 

<property>  
                <name>dfs.balance.bandwidthPerSec</name>  
                <value>10485760</value>  
                <description> 
                   Specifies the maximum bandwidth that each datanode 		                   can utilize for the balancing purpose in 
                       term of the number of bytes per second. 
                 </description>  
</property>  

 

 

命令:bin/start-balancer.sh

在新的结点上启动datanode 

命令:bin/hadoop-daemon.sh start datanode  

启动tasktracker

命令:bin/hadoop-daemon.sh start tasktracker 

启动SecondaryNameNode

命令: bin/hadoop-daemon.sh start SecoondaryNameNode

启动namenode

命令:bin/start-dfs.sh  

查看namenode的连接情况

命令:bin/hadoop dfsadmin -report

      以上就是集群配置的步骤,由于写这篇博客的时候集群正在修复中,所以没有一步步截图,不能让大家看到集群跑起来的情况,之后我会更新这篇博客,敬请期待!







 

 

分享到:
评论

相关推荐

    9、hadoop高可用HA集群部署及三种方式验证

    本文介绍hadoop HA环境部署。本文分为三部分,即HA集群规划、HA集群部署和HA集群验证 前提依赖: 1、前提是zookeeper已经部署好,其服务器部署在server1、server2、server3上,且能正常运行 2、ssh免登录已完成配置...

    大数据核心平台技术-实验记录

    4、Hadoop集群配置2.3Hadoop集群测试1、格式化文件系统2、启动和关闭Hadoop集群3、通过UI查看Hadoop运行状态2.4Hadoop集群初体验Hadoop经典案例——单词统计 一、前言 学校:许昌学院 学院:信息工程学院 实验环境:...

    07hadoop的安装&hdfs集群的配置与测试——好程序

    1•Local (Standalone) Mode(单节点的本地模式)Linux的文件系统就是hadoop的存储系统运行在单个的jvm环境,它使用linux的文件系统,适用于开发、测试、调试环境 运行案例 2•Pseudo-Distributed Mode(伪分布式...

    大数据精选入门指南,包括大数据学习路线、大数据技术栈思维导图

    Hadoop单机伪集群环境搭建 Hadoop 云服务环境搭建 HDFS使用Shell命令 HDFS Java API的使用 基于Zookeeper搭建Hadoop高可用服务 二、蜂巢 Hive简介及核心概念 Linux环境下Hive的安装配置 Hive CLI 和 Beeline 命令行...

    hadoop3自学入门笔记(2)—— HDFS分布式搭建

    配置Hadoop2.1部署及配置2.2 将配置复制到其他服务器2.3配置下hadoop的环境变量,方便输入命令2.4格式化3.启动4.打开浏览器查看HDFS监听页面参考书籍 一些介绍 Hadoop 2和Hadoop 3的端口区别 Hadoop 3 HDFS集群架构...

    基于Hadoop的云计算试验平台搭建研究 (2013年)

    Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种可靠、高效、可伸缩的云平台,很适合在实验室环境下进行模拟测试。以 Hadoop为基础,借助虚拟机VMwarc以及Linux、ubuntu、...

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    8.2 CDH4B1版本HDFS集群配置 8.2.1 虚拟机安装 8.2.2 nn1配置 8.2.3 dn1~dn3配置 8.2.4 HDFS集群构建 8.3 HA NameNode配置 8.3.1 nn1配置 8.3.2 其他节点配置 8.4 HA NameNode使用 8.4.1 启动HA HDFS集群 8.4.2 第1...

    大数据测试——精选推荐.pdf

    糟糕的涉及会导致性能急剧的下降,进⽽使得系统⽆法满⾜我们的需 要,因此我们需要,或是说⾄少在Hadoop环境下进⾏性能测试、故障恢复测试,以应改进效率和应对可能的最糟糕的情况。 性能测试是⼀个复杂的⼯作,它...

    2012年数据库技术大会演讲PPT.zip

    武新——分布式并行数据库集群在海量数据处理上的应用 余庆——分布式文件系统FastDFS架构剖析及配置优化 谭怀远—海量数据环境下的Oracle数据库系统架构设计和优化思路 专场4:数据挖掘 商业智能专场—演讲嘉宾及...

    HBase企业应用开发实战

    本书特色:, 国内资深Hadoop技术专家实践经验结晶,完全从企业实际生产环境和需求出发,旨在帮助企业真正解决大数据的落地问题;, 系统介绍HBase的功能使用、框架设计、基本原理和高级特性;详细讲解使用HBase设计...

    各大数据组件介绍.pdf

    Spark 是⼀种与 相似的开源集群计算环境,但是两者之间还存在⼀些不同之处,这些有⽤的不同之处使 Spark 在某些⼯作负载⽅⾯表现得 更加优越,换句话说,Spark 启⽤了内存分布数据集,除了能够提供交互式查询外,它...

Global site tag (gtag.js) - Google Analytics