当前位置: 首页 > article >正文

AWS EMR基础知识

EMR Overview

  • 知识点:EMR是可简化大数据框架运行的托管集群平台,能以可扩展且具成本效益的方式处理和分析大量数据,应用于大数据分析、数据处理、机器学习、数据湖和数据仓库等场景。
  • 注意事项:根据业务需求选择合适的使用场景,评估是否适合用EMR处理大数据。

EMR Components

  • 知识点:包含负责协调集群等的主节点、运行HDFS并能处理数据的核心节点、仅处理数据的任务节点、可访问S3数据的EMRFS,以及支持分布式数据处理的Apache Spark/Hadoop等框架。
  • 注意事项:了解各节点功能,合理配置节点以满足业务需求,注意不同框架的特点和适用场景。

EMR Cluster Creation

  • 知识点:集群类型有手动配置和终止的按需集群、可降低成本的使用Spot实例的集群、可长期处理作业的持久集群。可通过AWS管理控制台、CLI或SDK启动集群,并需指定软件应用、实例类型等配置。
  • 注意事项:根据业务需求和预算选择合适的集群类型,仔细配置启动参数,避免因配置不当导致资源浪费或性能问题。

Data Storage and Access

  • 知识点:EMR可通过EMRFS与S3集成读写数据,S3常作为存储各种格式数据集的数据湖,传统Hadoop设置中虽用HDFS存储数据,但EMR中常用S3替代。
  • 注意事项:合理规划数据存储位置,考虑数据格式和访问频率等因素,确保数据在S3和EMR之间的安全传输和高效访问。

Security

  • 知识点:EMR通过IAM角色访问AWS资源,需为实例和用户配置角色,还支持数据静态加密和传输加密,可使用Kerberos认证,可在VPC中运行增强网络安全。
  • 注意事项:严格按照最小权限原则配置IAM角色和策略,根据数据敏感性选择合适的加密方式,正确配置Kerberos和VPC。

Scaling and Performance

  • 知识点:EMR支持基于工作负载的自动扩展,可指定节点数量进行扩展,应根据工作负载选择合适的EC2实例类型,可使用Spot实例降低非关键工作负载成本,需根据作业需求和资源利用率确定集群规模。
  • 注意事项:准确评估工作负载,设置合理的自动扩展策略,避免因过度扩展或扩展不及时影响性能或增加成本。

EMR Monitoring & Logging

  • 知识点:可使用CloudWatch监控集群性能和健康,EMR集成CloudWatch Logs捕获应用日志,Ganglia可提供集群范围指标。
  • 注意事项:设置合理的监控指标和告警阈值,定期查看日志以排查问题,及时发现和解决集群性能瓶颈。

EMR and Data Processing Frameworks

  • 知识点:支持Apache Spark、Apache Hive、Apache HBase、Presto和Apache Drill等大数据处理框架,各框架有不同特点和适用场景。
  • 注意事项:根据业务需求选择合适的框架,了解框架间的兼容性和集成方式,合理配置框架参数以提高性能。

Cost Optimization

  • 知识点:使用Spot实例、实例舰队可优化成本,实例舰队可定义按需实例和Spot实例的组合。
  • 注意事项:考虑Spot实例的中断风险,合理配置实例舰队比例,平衡成本和可用性。

Integration with Other AWS Services

  • 知识点:可与AWS Glue、Amazon Redshift、Amazon RDS/DynamoDB、AWS Lambda等服务集成,实现数据预处理、数据仓库、读写数据库、事件驱动架构等功能。
  • 注意事项:了解各服务的集成方式和数据交互流程,确保数据在不同服务间的一致性和安全性。

Best Practices for AWS EMR

  • 知识点:应根据工作负载和性能选择合适的实例类型和大小,结合按需实例和Spot实例优化成本,自动终止不用的集群避免成本浪费。
  • 注意事项:持续监控和评估集群使用情况,及时调整资源配置和优化策略。

Advanced Topics

  • 知识点:EMR Studio是数据科学家和分析师创建和运行笔记本的开发环境,EMR Notebooks支持PySpark、SparkSQL等,方便数据探索和分析。
  • 注意事项:掌握笔记本的使用方法和技巧,注意数据安全和权限管理。

Cluster Management

  • 知识点:可通过AWS管理控制台、CLI或SDK来创建EMR集群,配置节点类型、数量、实例类型等参数,还能进行启动、停止、重启等操作,并可使用EMR自动引导操作进行自定义配置。
  • 注意事项:要根据工作负载需求合理配置集群资源,避免资源浪费或不足;记录集群的配置信息,便于后续维护和故障排查。

Applications

  • 知识点:EMR支持多种大数据应用框架,如Apache Hadoop用于分布式存储和处理大规模数据,Apache Spark用于内存计算等。
  • 注意事项:要根据具体业务需求选择合适的应用框架,不同框架版本可能存在兼容性问题,需关注官方文档和升级说明。

Pricing

  • 知识点:EMR定价基于EC2实例使用量、数据存储(如Amazon S3)和数据处理量。可选择不同实例类型和购买方式,如按需实例、预留实例、Spot实例等。
  • 注意事项:根据工作负载的特点和预算选择合适的实例类型和购买方式;要监控资源使用情况,避免超出预算。

Security

  • 知识点:可通过IAM角色为EMR集群和相关服务授予最小权限;支持SSL加密、AWS KMS加密数据,还可使用Kerberos实现身份验证和授权。
  • 注意事项:定期更新加密密钥,确保密钥安全;要遵循最小权限原则,合理配置权限。

Scaling

  • 知识点:可手动或自动扩展EMR集群,自动扩展可基于CloudWatch指标或自定义策略,还可配置动态扩展策略,根据集群负载自动调整节点数量。
  • 注意事项:要设置合理的扩展阈值和冷却时间,避免频繁扩展;监控集群的性能指标,确保扩展策略有效。

Integration

  • 知识点:EMR可与S3无缝集成,作为数据存储;与Redshift可进行数据迁移和分析;与RDS可存储元数据等;与DynamoDB可进行实时数据读写。
  • 注意事项:要确保各服务之间的网络连接和权限配置正确;考虑数据传输的性能和成本。

Data Storage

  • 知识点:EMR可直接读写S3数据,HDFS用于集群本地存储,DynamoDB可用于存储结构化或半结构化数据。
  • 注意事项:要根据数据访问模式和性能需求选择合适的存储方式;注意数据的一致性和完整性。

Monitoring and Logging

  • 知识点:可使用CloudWatch监控EMR集群的资源使用、任务执行等指标,通过CloudTrail记录API调用,还可配置应用级别的日志。
  • 注意事项:要合理设置监控指标和告警阈值,及时发现问题;定期清理和备份日志。

http://www.kler.cn/a/467470.html

相关文章:

  • 国产编辑器EverEdit - 两种删除空白行的方法
  • 求职:求职者在现场面试中应该注意哪些问题?
  • 云架构:考量与框架
  • Rabbitmq 具体怎么做到削峰的,是丢弃部分消费吗,有的实际场景是不允许丢弃
  • 若依中Feign调用的具体使用(若依微服务版自身已集成openfeign依赖,并在此基础上定义了自己的注解)
  • Conda 安装 Jupyter Notebook
  • 【ArcGISPro/GeoScenePro】裁剪和打包栅格数据
  • 1、数据结构之:树的相关定义和二叉树
  • Java接入阿里云日志服务
  • JAVA构造方法练习
  • 光伏安装在屋顶:安全、环保还是潜在威胁?
  • ithewei的2024年度总结
  • VB.NET CRC32 校验
  • 智能工厂的设计软件 应用场景的一个例子: 为AI聊天工具添加一个知识系统 之19 再次重建 之5 项目文件三大部
  • 《learn_the_architecture_-_generic_interrupt_controller_v3_and_v4__lpisn》学习笔记
  • 内部类 --- (寄生的哲学)
  • MQ消息队列
  • 【GBT32960协议学习系列】GBT 32960协议学习大纲
  • 【Seed-Labs 2.0】Buffer Overflow Attack Lab (Server Version)
  • [读书日志]从零开始学习Chisel 第二篇:Scala的变量与函数(敏捷硬件开发语言Chisel与数字系统设计)
  • 每日一学——自动化工具(Ansible)
  • 【练习】PAT乙1033 旧键盘打字
  • SQL把字符串按逗号分割成记录
  • 19.2、windows安全分析与防护
  • CSP初赛知识学习计划(第一天)
  • Linux相关开发工具