配置清单

Property Name	Default	Meaning
spark.xsql.properties.file	xsql.conf	用于指定包含所有XSQL配置的属性文件。单独的XSQL属性文件便于对XSQL配置信息进行运维、管理。如果不指定此属性，用户需要将XSQL参数配置到spark-default.conf或者通过--conf传递。
spark.xsql.datasources	None	用于指定用户使用的数据源。数据源可以有多个，之间使用英文逗号分隔，例如：default,customer,order。
spark.xsql.default.datasource	default	用于指定XSQL默认的数据源。
spark.xsql.default.database	default	用于指定XSQL在默认数据源中默认使用的数据库。
spark.xsql.datasource.$dataSource.type	None	用于指定数据源的类型，例如：mysql。
spark.xsql.datasource.$dataSource.url	None	用于指定数据源的url地址，不同数据源的Url格式不同，请分别查看各数据源Configuration配置。
spark.xsql.datasource.$dataSource.user	None	用于指定数据源账号的用户名。
spark.xsql.datasource.$dataSource.password	None	用于指定数据源账号的密码。
spark.xsql.datasource.$dataSource.version	None	用于指定数据源的版本，例如MySQL的版本有5.6.19。
spark.xsql.datasource.$dataSource.whitelist	None	用于指定数据源的Database及Table白名单。由于一些数据源中有大量的Database及Table，所以会导致启动XSQL时花费大量的时间。另一方面，每个用户只对其中的少数Database及Table感兴趣，因此可以提供白名单加速XSQL的启动。
spark.xsql.datasource.$dataSource.pushdown	true	用于控制指定数据源的查询是否优先采用下推方式。此配置将建议XSQL对此数据源的查询使用下推方式，但是并不能保证。很多情况下，XSQL并不会下推，例如：数据源查询还包含有其他数据源的子查询，或者引用了外部查询的别名。
spark.xsql.datasource.$dataSource.schemas	None	用于定义数据源中表的Schema信息。只适用于无严格Schema的数据源，例如：Redis、HBASE、MongoDB
spark.xsql.datasource.$dataSource.schemas.discover	false	对于无严格Schema的数据源，使用spark.xsql.datasource.$dataSource.schemas指定Schema配置文件，对于用户不太友好，而且一些复杂数据类型的定义（例如：ElasticSearch的nested类型）也十分繁琐。XSQL提供了对schema信息进行探索的能力，用户可以打开此开关，启用schema探索。注意：目前，此配置只对ElasticSearch和MongoDB有效。
spark.xsql.datasource.$dataSource.cache.level	1	用于指定数据源的元数据缓存级别，1表示Level One，2表示Level Two。
spark.xsql.datasource.$dataSource.cluster	None	用于定义数据源优先采用的Yarn集群。如果用户首次提交非下推的任务，那么此任务将会被提交到对应的Yarn集群。如果未指定此配置，对于Hive将选择Hive元数据服务所在的集群，其他数据源则仍然选择$XSQL_HOME/hadoopconf/yarn-site.xml文件所配置的Yarn集群。
spark.xsql.yarn.$clusterName	None	用于指定用户使用的Yarn集群的名称及相关配置文件。

配置数据源库表白名单

白名单是通过json格式的配置文件进行配置的，为便于用户理解，我们指定default数据源的白名单配置文件为hive-whitelist.conf：

spark.xsql.datasource.default.whitelist        hive-whitelist.conf

这里给出一个简单的hive-whitelist.conf的配置内容：

{
  "default": {
    "includes": [
      "tableA",
      "tableB",
      "tableC",
      "tableD",
      "tableE",
      "tableF"
    ],
    "excludes": ["tableD"]
  }
}

default是数据库名称。数据库级别只有白名单，而没有黑名单，也就是说XSQL中只有在白名单中明确配置的数据库才是可见的。每个数据库都可以配置includes和excludes两个属性，分别表示白名单和黑名单。在白名单中包括了table[A-F]共6张表，同时黑名单中包括了tableD一张表。在XSQL中黑名单拥有最高的优先级，将会从白名单中清楚表，因此在XSQL中只有table[A-D]、tableE、tableF共5张表可见。表默认是属于白名单的，所以当用户需要数据库中的所有表都可见时，可以不配置includes。

配置NoSQL数据源的Schema文件

有些类型的数据源没有明确、严格的Schema定义，XSQL无法通过访问数据源得到各个表的Schema信息。为了能够接入XSQL，需要用户手动配置数据源的Schema信息。配置采用了json格式，就像下面的例子一样：

{
    "database_A": [{
            "table": "table_A_1",
            "fields": [{
                    "name": "_id",
                    "type": "object_Id",
                    "hidden": false
                }, {
                    "name": "item",
                    "type": "string",
                    "hidden": false
                },
                {
                    "name": "qty",
                    "type": "int",
                    "hidden": false
                },
                {
                    "name": "tags",
                    "type": "array<string>",
                    "hidden": false
                },
                {
                    "name": "dim_cm",
                    "type": "array<int>",
                    "hidden": false
                }
            ]
        },
        {
            "table": "table_A_2",
            "fields": [{
                    "name": "id",
                    "type": "long",
                    "hidden": false
                },
                {
                    "name": "name",
                    "type": "string",
                    "hidden": false
                },
                {
                    "name": "is_man",
                    "type": "boolean",
                    "hidden": false
                },
                {
                    "name": "age",
                    "type": "int",
                    "hidden": false
                },
                {
                    "name": "salary",
                    "type": "double",
                    "hidden": false
                },
                {
                    "name": "format_salary",
                    "type": "decimal(12,2)",
                    "hidden": false
                },
                {
                    "name": "graduation_time",
                    "type": "date",
                    "hidden": false
                },
                {
                    "name": "birthday",
                    "type": "string",
                    "hidden": false
                },
                {
                    "name": "score",
                    "type": "decimal(5,1)",
                    "hidden": false
                }
            ]
        }
    ],
    "database_B": [{
        "table": "table_B_1",
        "fields": [{
                "name": "_id",
                "type": "object_Id",
                "hidden": false
            }, {
                "name": "VendorID",
                "type": "int",
                "hidden": false
            },
            {
                "name": "pickup_datetime",
                "type": "string",
                "hidden": false
            },
            {
                "name": "total_amount",
                "type": "double",
                "hidden": false
            }
        ]
    }]
}

此处以MongoDB的Schema为例。其他数据源主要是字段允许的类型不同。

选择运行集群

有时候，用户的数据源位于不同的集群环境中。为了使得Yarn分配的资源与数据之间更加接近，可以为数据源显示指定Yarn集群。spark.xsql.yarn.$clusterName属性中的clusterName是用户给Yarn集群起的别名，对应的值必须是一个有效的属性配置文件。

例如，我们定义了一个名为yarn-cluster0的Yarn集群，并指定了对应的配置文件为

spark.xsql.yarn.cluster0  yarn-cluster0.conf

yarn-cluster0.conf文件中的配置信息可能为：

spark.yarn.stagingDir    hdfs://namenode.dfs.cluster0.yahoo.com:9000/home/spark/cache
spark.hadoop.yarn.resourcemanager.cluster-id  cluster0-yarn
spark.hadoop.yarn.resourcemanager.zk-state-store.address  m3.dfs.cluster0.yahoo.com:2181,m4.dfs.cluster0.yahoo.com:2181,m5.dfs.cluster0.yahoo.com:2181,m6.dfs.cluster0.yahoo.com:2181
spark.hadoop.yarn.resourcemanager.zk-address  m2.dfs.cluster0.yahoo.com:2181,m3.dfs.cluster0.yahoo.com:2181,m4.dfs.cluster0.yahoo.com:2181,m5.dfs.cluster0.yahoo.com:2181,m6.dfs.cluster0.yahoo.com:2181
spark.hadoop.yarn.resourcemanager.zk-state-store.parent-path  /cluster0/yarn/rmstore
spark.hadoop.yarn.resourcemanager.hostname.rm1  m7.dfs.cluster0.yahoo.com
spark.hadoop.yarn.resourcemanager.hostname.rm2  m8.dfs.cluster0.yahoo.com
spark.hadoop.yarn.resourcemanager.scheduler.address.rm1  m7.dfs.cluster0.yahoo.com:8830
spark.hadoop.yarn.resourcemanager.resource-tracker.address.rm1  m7.dfs.cluster0.yahoo.com:8831
spark.hadoop.yarn.resourcemanager.address.rm1  m7.dfs.cluster0.yahoo.com:8832
spark.hadoop.yarn.resourcemanager.admin.address.rm1  m7.dfs.cluster0.yahoo.com:8833
spark.hadoop.yarn.resourcemanager.webapp.address.rm1  m7.dfs.cluster0.yahoo.com:8888
spark.hadoop.yarn.resourcemanager.ha.admin.address.rm1  m7.dfs.cluster0.yahoo.com:23142
spark.hadoop.yarn.resourcemanager.scheduler.address.rm2  m8.dfs.cluster0.yahoo.com:8830
spark.hadoop.yarn.resourcemanager.resource-tracker.address.rm2  m8.dfs.cluster0.yahoo.com:8831
spark.hadoop.yarn.resourcemanager.address.rm2  m8.dfs.cluster0.yahoo.com:8832
spark.hadoop.yarn.resourcemanager.admin.address.rm2  m8.dfs.cluster0.yahoo.com:8833
spark.hadoop.yarn.resourcemanager.webapp.address.rm2  m8.dfs.cluster0.yahoo.com:8888
spark.hadoop.yarn.resourcemanager.ha.admin.address.rm2  m8.dfs.cluster0.yahoo.com:23142
spark.hadoop.yarn.log.server.url  http://m8.dfs.cluster0.yahoo.com:19888/jobhistory/logs

下推执行时的条数限制

当对数据源的查询实际采用了下推方式时，XSQL将在用户未指定limit时，默认会加上limit 10的限制。这样做得目的有两点：

首先，Pushdown实际运行在Driver进程中，Driver的内存往往是有限的。如果不加以限制，将数GB甚至更多的数据读取到Driver，将会引发XSQL的内存问题，譬如：GC频繁、OOM。

其次，对于某些数据源，如果没有显式的limit限制，数据源本身也有限制（例如Elasticsearch会加上limit 10的限制）。

如果用户需要更多的返回数据，请显式增加limit语句。目前XSQL能够接受的limit的最大值是10000。

使用私有的xsql.conf

为了防止用户的数据源连接帐号密码泄露，XSQL提供了使用私有xsql.conf的配置方法：

spark.xsql.properties.file customer_name.conf
spark.xsql.conf.dir /home/username/xxx/xx

与之配合的在目录/home/username/xxx/xx下创建customer_name.conf，写入适当的数据源连接信息。此类配置不建议修改在spark-defaults.conf配置文件中，完整的提交命令如下：

/usr/bin/hadoop/software/spark-xsql/bin/spark-xsql --conf spark.xsql.properties.file=customer_name.conf --conf spark.xsql.conf.dir=/home/username/xxx/xx

使用字符串变量拼接SQL查询

对于一些定时任务，查询语句中需要传入随时间变化的查询变量，XSQL同样提供了这样的功能，首先看下面的示例提交命令：

/usr/bin/hadoop/software/spark-xsql/bin/spark-xsql --conf spark.key=value

那么，在之后的查询语句可以以下表达式：

select '${spark.key}' as date from example_table;

注意，${}符号必须被单引号或双引号所包裹，不能够独立存在，否则会语法解析报错。由于SparkConf要求所有的配置项必须以spark.开头，因此\${}内的查询变量也必须以spark.开头。

开启HBase或Druid数据源

为了控制XSQL依赖jar包的数量，XSQL默认不开启依赖较多的HBase模块和Druid模块，当需要使用这些模块时，可以添加以下配置：

spark.driver.extraClassPath  /usr/bin/hadoop/software/spark-xsql/hbase/*:/usr/bin/hadoop/software/spark-xsql/druid/*
spark.xsql.extraDatasourceManagers org.apache.spark.sql.xsql.manager.HBaseManager,org.apache.spark.sql.xsql.manager.DruidManager

开启hive权限控制

对于XSQL带权限控制的部署版本，要想开启权限控制，还需要添加额外的配置：

spark.sql.extensions org.apache.ranger.authorization.spark.authorizer.RangerSparkSQLExtension

hive-site.mxl也需要添加如下配置：

<property>
    <name>hive.security.authorization.enabled</name>
        <value>false</value>
        </property>
<property>
    <name>hive.security.authorization.manager</name
     <value>org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdHiveAuthorizerFactory</value>
   </property>
<property>
    <name>hive.security.authenticator.manager</name>
        <value>org.apache.hadoop.hive.ql.security.SessionStateUserAuthenticator</value>
        </property>
<property>
    <name>hive.conf.restricted.list</name>
 <value>hive.security.authorization.enabled,hive.security.authorization.manager,hive.security.authenticator.manager</value>
        </property>

开启自适应执行

对于XSQL带自适应执行的部署版本，要想开启自适应执行，还需要添加额外的配置：

spark.sql.adaptive.enabled true
spark.sql.adaptive.shuffle.targetPostShuffleInputSize 134217728
spark.sql.adaptive.join.enabled true
spark.sql.adaptive.skewedJoin.enabled true
spark.sql.adaptive.skewedPartitionFactor 5
spark.sql.adaptive.skewedPartitionSizeThreshold 134217728
spark.sql.adaptive.skewedPartitionRowCountThreshold 20000000
spark.shuffle.statistics.verbose true

spark.shuffle.service.enabled  false
spark.dynamicAllocation.enabled   false
spark.executor.instances     150

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search