当前位置：首页 > article >正文

大数据技术之Hadoop ：我是恁爹

article 2025/3/11 15:50:20

就如上图中的技术分类，大数据技术主要解决的就是海量数据的存储和计算问题。

这两个问题的解决方案最先被 Google 被提出，用于解决 Google 搜索引擎海量的网页存储和索引的构建。对应的技术就是日后被人所熟知的 HDFS 和 MapReduce。

不关注大数据的可能对这两个名词比较陌生，但是Hadoop大家一定都听说过吧。HDFS 和 MapReduce 就是 Hadoop 项目中的两个核心组件，一个用于解决海量数据存储问题，一个用来解决海量数据计算问题。

HDFS：我解决了存储

HDFS 全称为分布式文件系统，没错，只要是涉及到分布式，任何一个大问题都能分成多个小问题一一解决，所以大数据技术的本质的也是分而治之。

HDFS 的分而治之就是将一个大文件切分成多个数据块分布在不同服务器上存储，如下图

DataNodes 就是用来存储这些数据块的服务器集群，物理表现就是一群 JVM 进程。NameNode 是用来管理一个大文件被分了多少块、分别存在哪个服务器，方便查找定位。

HDFS 整体思想比较容易理解，但实现起来并不简单，背后还要考虑很多问题，例如文件如何分片、如何保证数据不丢失、某个服务器故障怎么办、如何实现数据的扩展性等等。

如果对这些实现细节感兴趣，请关注我，欢迎大家一起交流。

MapReduce：我解决了计算

存储问题解决了，计算问题是如何解决的？

试想一下，要计算一个大小为100G的文件中某个字符出现的次数，应该怎么做？

用一个计算节点读取分布在 HDFS 中的一个个数据块进行计算？那这个计算节点需要多大的内存？即便有这么大的内存，多久能计算完？

如果你是这样的想法，请跳出单机思维。

看下 MapReduce 是怎么做的。

MapReduce 作为大规模计算框架，它的核心思想是这样的：既然一个大文件可以作为多个数据块存储在 HDFS 集群中，那何不将计算的程序直接传输到这些数据块所在的节点进行分布式计算？

以128M（HDFS 默认分割大小）为一个数据块，100G得有800个数据块。如果按照单机思维，最少要进行800次128M的传输。但如果把一个1M大小的程序传输800次，是不是比前者划算？这也是大数据计算中非常重要的一个思想：移动计算比移动数据更划算。

而之所以叫 MapReduce，是因为 MapReduce 将计算分为了 Map 和 Reduce 两个阶段。开发人员在编码时只需要编写 Mapper 和 Reducer 的实现即可，不用关注程序的移动、计算结果的聚合等分布式编程工作。

以统计字符出现次数的代码为例：

public class WordCount {

  public static class TokenizerMapper 
       extends Mapper<Object, Text, Text, IntWritable>{
    
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
      
    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }
  
  public static class IntSumReducer 
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount <in> [<in>...] <out>");
      System.exit(2);
    }
    Job job = Job.getInstance(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}