当前位置: 首页 > article >正文

遇到问题:hive中的数据库和sparksql 操作的数据库不是同一个。

遇到的问题:

1、hive中的数据库和sparksql 操作的数据库不同步。

观察上面的数据库看是否同步 !!!

2、查询服务器中MySQL中hive的数据库,发现创建的位置没有在hdfs上,而是在本地。

 

这个错误产生的原因是:

你使用sparksql创建了数据库,没有使用hive界面创建。理论讲不管哪个进行创建都应该没问题,sparksql创建数据库有问题,说明spark的集群配置有问题,需要检查。

检查两个方面:

1)spark的yarn集群是否遗漏什么配置

2)spark连接hive有问题

正确界面应该如下所示:

上述截图创建的位置是在hdfs上  同步的!!!观察你的是否这样?

解决办法:

如果你的不同步,可以试一下如下这个办法。

1、在hive 下修改hive-site.xml

<property>
		<name>hive.metastore.schema.verification</name>
		<value>false</value>
	</property>

2、将hive-site.xml 复制到 spark的conf 下

cp /opt/installs/hive/conf/hive-site.xml /opt/installs/spark/conf

3、修改spark下的hive-site.xml

<property>
		<name>hive.server2.thrift.port</name>
		<value>10001</value>
		<description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.</description>
	  </property>

4、接着分发一下(这里用到了分发脚本xsync.sh):

xsync.sh /opt/installs/spark/conf/hive-site.xml

5、重启thrift服务:

#停止
/opt/installs/spark/sbin/stop-thriftserver.sh

#启动
/opt/installs/spark/sbin/start-thriftserver.sh 
--hiveconf hive.server2.thrift.port=10001 
--hiveconf hive.server2.thrift.bind.host=bigdata01 
--master yarn 
--conf spark.sql.shuffle.partitions=2

使用datagrip 重新连接一下,记得刷新一下连接。


http://www.kler.cn/a/421246.html

相关文章:

  • Python的秘密基地--[章节2]Python核心数据结构
  • c++预编译头文件
  • 前端跳转路由的时候,清掉缓存
  • Flink四大基石之State(状态) 的使用详解
  • Kibana server is not ready yet
  • C# 集合(Collection)
  • 网络安全课程学习笔记
  • 【Python网络爬虫笔记】8- (BeautifulSoup)抓取电影天堂2024年最新电影,并保存所有电影名称和链接
  • 如何调用百度文心一言API实现智能问答
  • 网络安全维护
  • LuaJava
  • pytorch加载预训练权重失败
  • 【C++笔记】map和set的使用
  • 003-SpringBoot整合Pagehelper
  • 后端-mybatis的一对多
  • iptables 防火墙 附实验:三台虚拟机模拟内网连接外网
  • 多模态遥感技术:智慧城市更新与表达的新路径
  • 容器化实践:优化DevOps环境下的容器交付流程
  • 【Leetcode】27.移除元素
  • 【大数据学习 | 面经】Spark 3.x 中的AQE(自适应查询执行)
  • Vue教程|搭建vue项目|Vue-CLI新版脚手架
  • 【HarmonyOS】鸿蒙应用使用lottie动画
  • 【SpringBoot】29 基于HttpClient的Http工具类
  • [自然语言处理] NLP-RNN及其变体-干货
  • Python 网络爬虫入门全知道
  • 分布式推理框架 xDit