当前位置: 首页 > article >正文

Databricks 入门之sql(一)基础查询

Databricks提供以spark sql的方式管理数据,本文记录最近学习到的常用sql。

1.Create table

DROP TABLE IF EXISTS People10M;
CREATE TABLE People10M
USING parquet
OPTIONS (
path "/mnt/training/dataframes/people-10m.parquet",
header "true");

从OPTIONS指定的路径下读取数据并创建对应的表,USING parquet指定读取数据的结构为parquet。Apache parquet 是一种列式文件格式,具有加快查询速度的优化功能。 它是比CSV或 JSON更加高效的文件格式。细节参考:Parquet Files 。

当然databricks支持对CSV和JSON格式的数据读取。

2. Create Temporary Views

Databricks 可以方便快速的在内存中创建临时视图来支持数据操作。

CREATE OR REPLACE TEMPORARY VIEW PeopleSavings AS
SELECT
  firstName,
  lastName,
  year(birthDate) as birthYear,
  salary,
  salary * 0.2 AS savings
FROM
  People10M;

3. 查询

查询语法和常见的sql语句相同

# 查询数据
SELECT * FROM People10M;
# 查询表结构
DESCRIBE People10M;
# 关联查询
SELECT firstName 
FROM PeopleDistinctNames 
JOIN SSADistinctNames ON firstName = ssaFirstName


http://www.kler.cn/a/37430.html

相关文章:

  • layui入门增删改查
  • Winform实现简历生成器(Excel版)
  • 《消失的她》豆瓣短评数据分析
  • 《刷题2》场景模拟
  • 自学网络安全(黑客)
  • docker dockerfile部署contos7、nginx
  • 相机图像质量研究(2)ISP专用平台调优介绍
  • 2023 node 接入腾讯云短信服务,实现发送短信功能
  • SpringCloud微服务(三)RabbitMQ、SpringAMQP、elasticsearch、DSL、MQ、ES详细介绍
  • webpack项目和vue项目发布,浏览器存在缓存
  • 阿里云服务器安装mysql并用idea连接
  • 5.EFLK(ELK+filebeat)+filter过滤
  • (数学)+(二分)
  • C++ Primer Plus笔记: 2023.07.14
  • 图像分类论文阅读
  • ubuntu无法定位软件包 tfpd-hpa
  • Jupyter Notebook 的快捷键
  • Ghostscript开源PDF库中发现关键漏洞
  • 初识c语言
  • node-red安全部署方式-安全登录功能