当前位置: 首页 > article >正文

使用PyCharm连接虚拟机运行spark任务,本地开发:远程提交测试

在本地写代码,右键运行,将代码自动提交到集群上

spark是Standalone集群

1) 集群环境准备好

#启动集群:第一台机器
start-dfs.sh
cd /opt/installs/spark
sbin/start-master.sh
sbin/start-workers.sh
sbin/start-history-server.sh

2) Windows指定远程解析器

在虚拟机上创建一个文件夹,用于同步本地代码到服务上。

#创建同步目录:将Windows上的代码和数据同步到Linux的这个目录下
mkdir -p /root/pyspark_code

 

 

 

至此,以后右键运行代码,都会将代码自动提交给集群,让集群运行,假如你想换回本地,可以在此处将环境切换回来。

问题:

解决方案:在bigdata01中,安装pyspark。

我们在linux上配置了阿里云的源,不代表在base中也可以使用,运行时需要带上源地址
pip install pyspark==3.1.2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

 验证是否已经安装:

pip list 或者  conda list
也可以这么干:
pip list | grep pyspark

下载完成之后,重启一下 pycharm.

3)代码如何提交到集群上

第一种是自动提交

 第二种是手动提交:

 同步后,在linux上查看,有代码:

运行的话,直接在本地右键运行即可,以上代码如果需要传递参数,在ide工具中写。 

假如在运行过程中,出现

Initial job has not accepted any resources; check your cluster UI to ensure that workers are registe

程序在运行时,没有资源,请确保你有worker,假如有worker,请查看worker是否有资源。

有可能是以下几个问题:

1、集群资源不足,关闭掉没用的资源

2、目前集群中有其他任务,占用了资源,直接关闭掉

        修改一些配置:

        修改 worker 的内存大小:

 


http://www.kler.cn/a/383106.html

相关文章:

  • docker+nacos
  • 爱普生 SG–WriterⅡ 石英可编程手工烧录器
  • 【自用】时序数据库、时序数据库,IOTDB官方文档笔记
  • 【FL0013】基于SpringBoot和微信小程序的机电公司管理信息系统
  • 设置JAVA以适配华为2288HV2服务器的KVM控制台
  • 手边酒店多商户版V2源码独立部署_博纳软云
  • 在老旧小区配电系统中剩余电流继电器的应用
  • 一.Linux文件基本属性
  • docker+mysql配置
  • 第十九课 Vue组件中的方法
  • 3^100的位数判断
  • CAN通讯中常见的接口异常问题及其解决方案
  • 【数据结构与算法】第8课—数据结构之二叉树(堆)
  • Linux基础-常用操作命令详讲
  • 《Java核心技术 卷I》对象克隆
  • LeetCode 热题100之图论
  • Hive 2.x 的安装与配置
  • GPU架构概述
  • python数据分析笔记
  • 如何选择适合TikTok创作者的高性价比专线网络:全方位指南
  • 【算法篇】--重温算法题
  • Pulsargeist:恐怖类型的 XR 大空间项目创新玩法
  • SQL练习专场--01
  • 【glm4-voice-9b 本地运行并测试 gradio+notebook】
  • 探索空间计算与 VR 设备的未来:4K4DGen 高分辨率全景 4D 内容生成系统
  • ssm061基于SSM框架的个人博客网站的设计与实现+vue(论文+源码)_kaic