博客
关于我
Ubuntu16.04安装Hadoop+Spark+pyspark大数据python开发环境
阅读量:329 次
发布时间:2019-03-04

本文共 2245 字,大约阅读时间需要 7 分钟。

Ubuntu环境下大数据开发全指南

安装JDK

安装Java Development Kit(JDK)是大数据开发的基础。以下是手动安装步骤:

  • 使用包管理器安装JDK:
    sudo apt-get install java-dev
  • 配置JDK环境变量:
    打开~/.bashrc文件,添加以下内容:
    export JAVA_HOME=/usr/lib/jvm/java  export JRE_HOME=${JAVA_HOME}/jre  export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  export PATH=${JAVA_HOME}/bin:$PATH

    保存后执行:

    source ~/.bashrc
  • 验证安装:
    输入命令查看Java版本:
    java -version
  • 配置SSH免密登录

    SSH免密登录是开发过程中的常用需求。以下是配置步骤:

  • 安装SSH服务器:
    sudo apt-get install openssh-server
  • 生成SSH公钥:
    输入命令并连续敲击回车:
    ssh-keygen -t rsa
  • 将公钥添加到授权列表:
    cat ./id_rsa.pub >> ./authorized_keys
  • 测试免密登录:
    ssh localhost
  • 安装Hadoop

    Hadoop是大数据处理的核心框架。以下是手动安装步骤:

  • 解压Hadoop:
    sudo tar -zxvf hadoop-2.6.5.tar.gz -C /usr/local
  • 配置Hadoop环境:
    打开~/.bashrc文件,添加以下内容:
    export HADOOP_HOME=/usr/local/hadoop  export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH  export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native  export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  • 启动Hadoop:
    source ~/.bashrc  ./bin/hdfs namenode -format  ./sbin/start-dfs.sh  jps
  • 配置Hadoop相关文件:
    • hadoop-env.sh:
    export JAVA_HOME=/usr/lib/jvm/java
    • core-site.xml:
    hadoop.tmp.dir
    file:/usr/local/hadoop/tmp
    fs.defaultFS
    hdfs://localhost:9000
    • hdfs-site.xml:
    dfs.replication
    1
    dfs.namenode.name.dir
    file:/usr/local/hadoop/tmp/dfs/name
    dfs.datanode.data.dir
    file:/usr/local/hadoop/tmp/dfs/data
  • 安装Scala

    Scala是大数据处理的高级语言。以下是手动安装步骤:

  • 使用包管理器安装Scala:
    sudo apt-get install scala
  • 配置Scala环境变量:
    打开~/.bashrc文件,添加以下内容:
    export SCALA_HOME=/usr/share/scala-2.11
  • 验证安装:
    scala -version
  • 安装Spark

    Spark是大数据处理的通用框架。以下是手动安装步骤:

  • 解压Spark:
    tar zxvf spark-2.3.1-bin-hadoop2.7.tgz
  • 配置Spark环境:
    打开~/.bashrc文件,添加以下内容:
    export SPARK_HOME=/usr/local/spark
  • 验证安装:
    cd /usr/local/spark/bin  ./pyspark
  • 测试Spark+Python:
    from pyspark import SparkContext  sc = SparkContext()  lines = sc.textFile("/usr/local/spark/README.md")  lines.count()  lines.first()
  • 以上就是Ubuntu环境下大数据开发的完整安装指南。从JDK到Hadoop、Scala、Spark,每一步都详细指导,帮助您快速搭建开发环境。

    转载地址:http://uzwh.baihongyu.com/

    你可能感兴趣的文章
    OpenCV与AI深度学习 | CIB-SE-YOLOv8: 优化的YOLOv8, 用于施工现场的安全设备实时检测 !
    查看>>
    OpenCV与AI深度学习 | CoTracker3:用于卓越点跟踪的最新 AI 模型
    查看>>
    OpenCV与AI深度学习 | OpenCV中八种不同的目标追踪算法
    查看>>
    OpenCV与AI深度学习 | OpenCV图像拼接--Stitching detailed使用与参数介绍
    查看>>
    OpenCV与AI深度学习 | OpenCV如何读取仪表中的指针刻度
    查看>>
    OpenCV与AI深度学习 | OpenCV常用图像拼接方法(一) :直接拼接
    查看>>
    OpenCV与AI深度学习 | OpenCV常用图像拼接方法(二) :基于模板匹配拼接
    查看>>
    OpenCV与AI深度学习 | OpenCV快速傅里叶变换(FFT)用于图像和视频流的模糊检测(建议收藏!)
    查看>>
    OpenCV与AI深度学习 | SAM2(Segment Anything Model 2)新一代分割一切大模型介绍与使用(步骤 + 代码)
    查看>>
    OpenCV与AI深度学习 | T-Rex Label !超震撼 AI 自动标注工具,开箱即用、检测一切
    查看>>
    OpenCV与AI深度学习 | YOLO11介绍及五大任务推理演示(目标检测,图像分割,图像分类,姿态检测,带方向目标检测)
    查看>>
    OpenCV与AI深度学习 | YOLOv10在PyTorch和OpenVINO中推理对比
    查看>>
    OpenCV与AI深度学习 | YOLOv11来了:将重新定义AI的可能性
    查看>>
    OpenCV与AI深度学习 | YOLOv8自定义数据集训练实现火焰和烟雾检测(代码+数据集!)
    查看>>
    OpenCV与AI深度学习 | YOLOv8重磅升级,新增旋转目标检测,又该学习了!
    查看>>
    OpenCV与AI深度学习 | 一文带你读懂YOLOv1~YOLOv11(建议收藏!)
    查看>>
    OpenCV与AI深度学习 | 五分钟快速搭建一个实时人脸口罩检测系统(OpenCV+PaddleHub 含源码)
    查看>>
    OpenCV与AI深度学习 | 什么是 COCO 数据集?
    查看>>
    OpenCV与AI深度学习 | 低对比度缺陷检测应用实例--LCD屏幕脏污检测
    查看>>
    OpenCV与AI深度学习 | 使用 MoveNet Lightning 和 OpenCV 实现实时姿势检测
    查看>>