当前位置: 首页 > article >正文

【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。

前言

Databricks 已经成为了数据科学的必备工具,今时今日你已经很难抛开它来谈大数据,它常用于做复杂的ETL中的T, 数据分析,数据挖掘等,特别适用于做数据建模,机器学习等。

那么顺应时代,现在也来看看这个工具的内容。首先要有一个环境,基于Azure 的Databricks简称ADB。托管在Azure 上的Databricks已经被Azure进行了很大的优化, 在搭建时只需要简单的几步即可拥有一个环境,不过要提醒一句ADB的集群并不便宜,用完马上删掉或停止, 否则一晚过百美金就会烧掉。

搭建环境

步骤1: 创建ADB workspace

可以把Workspace想象成一个装在Azure上的应用程序,然后通过它进入Databricks的环境。通过下图,创建一个workspace:
在这里插入图片描述
创建的步骤很简单,提供一些简单信息,对于pricing tier处,可以先按默认选择,在实际环境中则需要考虑具体的费用和用法。

在这里插入图片描述

点击创建后等待几分钟即可完成:

在这里插入图片描述

Databricks 内部布局

通过workspace进去之后可以看到下图的布局,ADB 的版本更新可能会导致布局的偏差,不过基本功能都不会变。
在这里插入图片描述
我们主要用到的一些导航栏有:

  • Workspace: 通过一个“文件系统”把你的notebooks进行逻辑分组。默认情况下会有两个:Shared 和Users, Shared 文件夹用来存储共同协作notebooks。 users则只给创建的用户自己访问。可以在这里进行权限控制来保证多用户使用时的安全性。
  • Recents:存储最近访问的资源列表。
  • Compute:ADB的核心运算组件——集群所在地。

在这里插入图片描述

步骤3 创建集群

除了权限, ADB 中常规的必要操作就是创建和管理集群, 从Compute导航栏进去,点击创建集群:
在这里插入图片描述
集群选项不是非常多,最主要的部分是节点(min/ max workers)这个决定你运行时的费用和性能。还有自动停止时间,如果你担心忘记了手动停止,那么就这下图第二个箭头处填上合适的时间,让集群在没有活动后的多少分钟内停止。

在这里插入图片描述

创建时会出现下面左边箭头的图标,叫作pin cluster, ADB 的集群有个特性, 当集群建立后闲置30天都没有被用过,就会自动销毁,通过pin住集群可以避免在重要的环境下集群的异常消失。
集群创建后,在右边箭头中可以开始,停止集群。
在这里插入图片描述
创建完毕后的集群样子:
在这里插入图片描述

到此为止,物理上的搭建已经初步完成。下一文将对ADB 的集群进行更深入的研究,因为它实在太重要,而且费用贵。


http://www.kler.cn/news/157468.html

相关文章:

  • Django回顾5 - 多表操作、其它字段和字段参数、中间表的三种创建方式
  • 国产API调试插件:Apipost-Helper
  • JVM Optimization Learning(五)
  • vue3使用vuex 集中式管理状态数据
  • 6、原型模式(Prototype Pattern,不常用)
  • 从遍历到A星寻路
  • 备忘录不小心删了怎么办?如何找回我的备忘录?
  • 加载预训练权重时不匹配
  • 数据库事务
  • C/C++ 原生套接字抓取FTP数据包
  • 【Cadence Allegro17.4】
  • nginx部署和安装-后端程序多端口访问-后端代理设置
  • Python实现FA萤火虫优化算法优化卷积神经网络分类模型(CNN分类算法)项目实战
  • 基于Eclipse+Mysql+Tomcat开发的 教学评价管理系统
  • using meta-SQL 使用元SQL 六
  • mfc项目设置软件版本
  • Unity Canvas、Canvas Scaler、Graphic Raycaster、EventSystem 组件详解
  • 分享 | 顶刊高质量论文插图配色(含RGB值及16进制HEX码)(第一期)
  • 基于SSM的图书馆管理系统的设计与实现
  • 【论文阅读】1 SkyChain:一个深度强化学习的动态区块链分片系统
  • 【滤波第二期】中值滤波的原理和C代码
  • 【开源】基于Vue和SpringBoot的音乐偏好度推荐系统
  • 跨网文件摆渡系统:安全、可控的数字传输桥梁
  • MyBatis查询优化:枚举在条件构建中的妙用
  • 写给初学者的 HarmonyOS 教程 -- 状态管理(@State/@Prop/@Link 装饰器)
  • linux 应用开发笔记---【标准I/O库/文件属性及目录】
  • PTA 一维数组7-3出生年(本题请你根据要求,自动填充“我出生于y年,直到x岁才遇到n个数字都不相同的年份”这句话)
  • C++算法入门练习——最大连续子序列和
  • vue2+electron桌面端一体机应用
  • golang实现函数yamlToStruct(infile,outFile)