当前位置：首页 > article >正文

(undone) MIT6.824 Lecture1 笔记

article 2025/3/10 6:01:20

参考1MIT课程视频：https://www.bilibili.com/video/BV16f4y1z7kn/?spm_id_from=333.337.search-card.all.click&vd_source=7a1a0bc74158c6993c7355c5490fc600

参考2某大佬笔记：https://ashiamd.github.io/docsify-notes/#/study/%E5%88%86%E5%B8%83%E5%BC%8F%E7%AD%96%E7%95%A5/MIT6.824%E7%BD%91%E8%AF%BE%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0-01

参考3mapreduce论文：https://pdos.csail.mit.edu/6.824/papers/mapreduce.pdf

参考42021MIT6.824schedule：http://nil.csail.mit.edu/6.824/2021/schedule.html

最近工作上遇到了一些高并发和一致性的问题，发现并行代码要写好、写的没有错误、DEBUG 真的很难。故决定学习 MIT6.824 来补充一下这方面的知识。

我们开始看 Lecture 1 吧，先来看教授的课程。

分布式系统的定义：多个计算机(而不是多处理器)通过网络连接，只能通过发送接收数据包交互，来合作提供一些服务。

分布式系统的意义：1.通过并行提高速度 2.容忍错误，一部分计算机宕机、其它计算机能继续工作 3.提高安全性。把安全相关的服务放在一台机子上，其它服务放在别的机子上

最直接的分布式系统应用：数千万人同时访问的网站，自然需要分布式系统提供服务

分布式系统中的难点：
1.许多并发的部分
2.当一部分计算机故障时，分布式系统应该能够使用剩余的计算机继续正常提供服务
3.想要实现分布式系统在理论上的性能优势并不容易

这门课的实验是模拟的，假装有很多台机器在运行服务，但实际上是在你自己的机子上单机跑。有兴趣可以看看是怎么实现的

分布式系统的主题有：
1.Fault tolerance (分为 available(部分机子宕机依然能运行) 和 recoverability (宕机的计算机能够恢复并重新加入工作))
2.Consistency 一致性。（并行、并发情况下，如何保证结果不会错误？并发 bug 是很常见的）
3.性能 Performance （包括 Throughput 和 latency）

性能和前两者往往冲突，所以这就需要工程上的 trade-off

教授简单介绍了 MapReduce：一种框架，让非专业人士能够轻易写分布式代码

以下是一个案例
如果让 N 台计算机去统计全世界所有书籍的各单词计数，那么比较好的方式是：
1.把所有 corpus 平均分成 N 份
2.每台计算机统计分给自己的 corpus，产出 <单词，计数> 键值对
3.所有计算机都产出键值对后，统一把这些键值对相加，得到最后的结果
前两步叫 Map，最后一步叫 Reduce
教授指出，最昂贵的步骤是 mapper 和 reducer 之间的 shuffle 操作，这个到论文中再仔细看吧
在这里插入图片描述