对大数据的理解:

  1. 大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
  2. 大数据包括了以Hadoop和Spark为代表的基础大数据框架。
  3. 还包括实时数据处理、离线数据处理;数据分析,数据挖掘和用机器算法进行预测分析等技术。

Hadoop的优势和功能:

hadoop 是开源的、分布式存储、分布式计算平台,可以用来搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务

Hadoop包括两个核心组成:

  1. HDFS:分布式文件系统,存储海量的数据
  2. MapReduce:并行处理框架,实现任务分解和调度

hadoop安装及配置:

  1. 下载hdoop安装包并进行解压
  2. 配置hdoop-env.sh文件,目的是配置jdk,并在profile配置haddoop的安装位置
    export JAVA_HOME=安装好的JDK(配置的JAVA_HOME)
    export HADOOP_HOME=/opt/hadoop-1.2.1
    export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$PATH
  3. 配置core-site.xml文件:hdoop的核心文件,里面有关于hdoop的节点端口与主机端口

    <configuration>
    <propery>
    <name>hadoop.tmp.dir</name>
    <value>/hadoop</value> <!-- 工作目录 -->
    </propery>
    <name>dfs.name.dir</name>
    <value>/hadoop/name</value> <!-- 所有元数据的目录 -->
    <propery>
    <name>fs.default.name</name>
    <value>hdfs://imooc:9000</value> <!-- 表示文件系统如何访问 namenode -->
    </propery>
    </configuration>

  4. 配置hdfs-site.xml文件:hadoop的文件存储的基本信息与目录

    <property>
    <name>dfs.data.dir</name>
    <value>/hadoop/data</value> <!-- 文件系统的数据存放路径 -->
    </property>

  5. 配置mapred-site.xml文件:hadoop的计算节点的端口号

    <property>
    <name>mapred.job.tracker</name>
    <value>imooc:9001</value> <!-- 配置任务调度器如何访问 -->
    </property>

  6. 格式化:hadoop namenode -format
  7. 启动 hadoop:start-all.sh
  8. 查看端口:jps,可以看到五大守护进程说明正确
  9. 停止 hadoop:stop-all.sh
Last modification:December 16th, 2019 at 05:53 pm
如果觉得我的文章对你有用,请随意赞赏