1.数据采集技术框架
- Flume、Logstash和FileBeat:常用于日志数据实时监控采集。
- Sqoop和Datax:适用于关系型数据库离线数据采集。
- Cannal和Maxwell:适用于关系型数据库实时数据采集。
2.数据存储技术框架
- HDFS:可以解决海量数据存储问题,但不支持单条数据修改操作。
- HBase:基于HDFS的分布式NoSQL数据库,支持数据修改。
- Kudu:介于HDFS和HBase之间,支持数据修改和基于SQL的数据分析。
- Kafka:适用于海量数据的临时缓冲存储,提供高吞吐量的读写能力。
3.分布式资源管理框架
- YARN、Kubernetes和Mesos:这些框架帮助灵活管理服务器资源,适应不同的任务需求。
4.数据计算技术框架
- MapReduce:第一代离线数据计算引擎,适用于大规模数据集的分布式并行计算。
- Tez:在大数据技术生态圈中存在感较弱,很少单独使用。
- Spark:内存计算是其最大特点,适合海量数据的快速且复杂计算。
- 实时数据计算:Storm、Flink和SparkStreaming均提供实时数据计算功能,Flink在性能和生态圈方面表现更优。
5.数据分析技术框架
- Hive、Impala和Kylin:适用于离线OLAP数据分析。
- Clickhouse、Druid和Doris:适用于实时OLAP数据分析。
6.任务调度技术框架
- Azkaban、Ooize和DolphinScheduler:适用于有复杂依赖关系的多级任务调度,保证系统的性能和稳定性。
7.大数据底层基础技术框架
- Zookeeper:提供命名空间、配置服务等基础功能,支持Hadoop、HBase和Kafka等组件的运行。
8.数据检索技术框架
- Lucene、Solr和Elasticsearch:用于多条件快速复杂查询,如电商商品搜索和搜索引擎信息检索。
9.大数据集群安装管理框架
- CDH、HDP、CDP:简化了大数据集群的安装和管理过程,提高运维效率。