AWS EMR基础知识
EMR Overview
- 知识点:EMR是可简化大数据框架运行的托管集群平台,能以可扩展且具成本效益的方式处理和分析大量数据,应用于大数据分析、数据处理、机器学习、数据湖和数据仓库等场景。
- 注意事项:根据业务需求选择合适的使用场景,评估是否适合用EMR处理大数据。
EMR Components
- 知识点:包含负责协调集群等的主节点、运行HDFS并能处理数据的核心节点、仅处理数据的任务节点、可访问S3数据的EMRFS,以及支持分布式数据处理的Apache Spark/Hadoop等框架。
- 注意事项:了解各节点功能,合理配置节点以满足业务需求,注意不同框架的特点和适用场景。
EMR Cluster Creation
- 知识点:集群类型有手动配置和终止的按需集群、可降低成本的使用Spot实例的集群、可长期处理作业的持久集群。可通过AWS管理控制台、CLI或SDK启动集群,并需指定软件应用、实例类型等配置。
- 注意事项:根据业务需求和预算选择合适的集群类型,仔细配置启动参数,避免因配置不当导致资源浪费或性能问题。
Data Storage and Access
- 知识点:EMR可通过EMRFS与S3集成读写数据,S3常作为存储各种格式数据集的数据湖,传统Hadoop设置中虽用HDFS存储数据,但EMR中常用S3替代。
- 注意事项:合理规划数据存储位置,考虑数据格式和访问频率等因素,确保数据在S3和EMR之间的安全传输和高效访问。
Security
- 知识点:EMR通过IAM角色访问AWS资源,需为实例和用户配置角色,还支持数据静态加密和传输加密,可使用Kerberos认证,可在VPC中运行增强网络安全。
- 注意事项:严格按照最小权限原则配置IAM角色和策略,根据数据敏感性选择合适的加密方式,正确配置Kerberos和VPC。
Scaling and Performance
- 知识点:EMR支持基于工作负载的自动扩展,可指定节点数量进行扩展,应根据工作负载选择合适的EC2实例类型,可使用Spot实例降低非关键工作负载成本,需根据作业需求和资源利用率确定集群规模。
- 注意事项:准确评估工作负载,设置合理的自动扩展策略,避免因过度扩展或扩展不及时影响性能或增加成本。
EMR Monitoring & Logging
- 知识点:可使用CloudWatch监控集群性能和健康,EMR集成CloudWatch Logs捕获应用日志,Ganglia可提供集群范围指标。
- 注意事项:设置合理的监控指标和告警阈值,定期查看日志以排查问题,及时发现和解决集群性能瓶颈。
EMR and Data Processing Frameworks
- 知识点:支持Apache Spark、Apache Hive、Apache HBase、Presto和Apache Drill等大数据处理框架,各框架有不同特点和适用场景。
- 注意事项:根据业务需求选择合适的框架,了解框架间的兼容性和集成方式,合理配置框架参数以提高性能。
Cost Optimization
- 知识点:使用Spot实例、实例舰队可优化成本,实例舰队可定义按需实例和Spot实例的组合。
- 注意事项:考虑Spot实例的中断风险,合理配置实例舰队比例,平衡成本和可用性。
Integration with Other AWS Services
- 知识点:可与AWS Glue、Amazon Redshift、Amazon RDS/DynamoDB、AWS Lambda等服务集成,实现数据预处理、数据仓库、读写数据库、事件驱动架构等功能。
- 注意事项:了解各服务的集成方式和数据交互流程,确保数据在不同服务间的一致性和安全性。
Best Practices for AWS EMR
- 知识点:应根据工作负载和性能选择合适的实例类型和大小,结合按需实例和Spot实例优化成本,自动终止不用的集群避免成本浪费。
- 注意事项:持续监控和评估集群使用情况,及时调整资源配置和优化策略。
Advanced Topics
- 知识点:EMR Studio是数据科学家和分析师创建和运行笔记本的开发环境,EMR Notebooks支持PySpark、SparkSQL等,方便数据探索和分析。
- 注意事项:掌握笔记本的使用方法和技巧,注意数据安全和权限管理。
Cluster Management
- 知识点:可通过AWS管理控制台、CLI或SDK来创建EMR集群,配置节点类型、数量、实例类型等参数,还能进行启动、停止、重启等操作,并可使用EMR自动引导操作进行自定义配置。
- 注意事项:要根据工作负载需求合理配置集群资源,避免资源浪费或不足;记录集群的配置信息,便于后续维护和故障排查。
Applications
- 知识点:EMR支持多种大数据应用框架,如Apache Hadoop用于分布式存储和处理大规模数据,Apache Spark用于内存计算等。
- 注意事项:要根据具体业务需求选择合适的应用框架,不同框架版本可能存在兼容性问题,需关注官方文档和升级说明。
Pricing
- 知识点:EMR定价基于EC2实例使用量、数据存储(如Amazon S3)和数据处理量。可选择不同实例类型和购买方式,如按需实例、预留实例、Spot实例等。
- 注意事项:根据工作负载的特点和预算选择合适的实例类型和购买方式;要监控资源使用情况,避免超出预算。
Security
- 知识点:可通过IAM角色为EMR集群和相关服务授予最小权限;支持SSL加密、AWS KMS加密数据,还可使用Kerberos实现身份验证和授权。
- 注意事项:定期更新加密密钥,确保密钥安全;要遵循最小权限原则,合理配置权限。
Scaling
- 知识点:可手动或自动扩展EMR集群,自动扩展可基于CloudWatch指标或自定义策略,还可配置动态扩展策略,根据集群负载自动调整节点数量。
- 注意事项:要设置合理的扩展阈值和冷却时间,避免频繁扩展;监控集群的性能指标,确保扩展策略有效。
Integration
- 知识点:EMR可与S3无缝集成,作为数据存储;与Redshift可进行数据迁移和分析;与RDS可存储元数据等;与DynamoDB可进行实时数据读写。
- 注意事项:要确保各服务之间的网络连接和权限配置正确;考虑数据传输的性能和成本。
Data Storage
- 知识点:EMR可直接读写S3数据,HDFS用于集群本地存储,DynamoDB可用于存储结构化或半结构化数据。
- 注意事项:要根据数据访问模式和性能需求选择合适的存储方式;注意数据的一致性和完整性。
Monitoring and Logging
- 知识点:可使用CloudWatch监控EMR集群的资源使用、任务执行等指标,通过CloudTrail记录API调用,还可配置应用级别的日志。
- 注意事项:要合理设置监控指标和告警阈值,及时发现问题;定期清理和备份日志。