TiDB-OPS

TiSpark 服务安装 部署 测试

spark

部署 TiSpark 集群

TiDB-Ansible 与 TiSpark 的关系

部署 TiSpark 准备

注意:以下参数中有部分参数需要新版本才能使用 (2018 年 6 月之后的版本) 最新 spark 参数请关注 spark-default.yml

开始安装 TiSpark

TiDB 目前默认已安装一台 spark 节点。以下为安装 spark cluster 。需要编写 inventory.ini,在 master_spark & slaves_sparks 填写目标主机信息

运维 TiSpark

测试 TiSpark 服务

TiSpark 相关端口 & IP

运行方式如下(注意自己安装的 Spark 版本再执行)

spark 2.1.1 版本以及 2018 年 6 月份之前 tispark jar 包使用该步骤

Spark 2.3.2 版本

第三方工具连接 TiSpark


使用 zeppelin 远程链接 Spark

安装 zeppelin

Zeppelin 目前已托管于 Apache 基金会,但并未列为顶级项目,可以在其公布的官网访问。

它提供了一个非常友好的 WebUI 界面,操作相关指令。它可以用于做数据分析和可视化。其后面可以接入不同的数据处理引擎。包括 Flink,Spark,Hive 等。支持原生的 Scala,Shell,Markdown 等。

官方提供更多安装方式,详情查看Using the official docker image

  1. 使用清华开源镜像站下载 Zeppelin

     https://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/
    
  2. 配置 conf/zeppelin-env.sh 将 SPARK_HOME 指向当前机器上的 SPARK 地址,例如

     export SPARK_HOME=/Users/ilovesoup1/workspace/spark-2.1.1-bin-hadoop2.7
    
  3. 检查 jackson 相关 JAR 包
    • ls -al $SPARK_HOME/jars/jackson-* 查看 spark
    • 如现有版本比 Spark 内置版本旧,删除原有版本,用 spark/jars 下如下文件替换
    • zeppelin-0.7.3-bin-netinst/lib
     jackson-annotations-2.6.5.jar
     jackson-core-2.6.5.jar
     jackson-databind-2.6.5.jar
    
  4. 启动 Zeppelin 服务
  1. 浏览器访问

     http://zepplineserver:8080
    

FAQ

import tisaprk 失败问题(早期版本)

index 下推

spark.conf.get("spark.tispark.plan.allow_index_read")

spark.conf.set("spark.tispark.plan.allow_index_read", "true")