【Docker 内核详解】cgroups 资源限制(一):概念、作用、术语
cgroups 资源限制(一):概念、作用、术语
- 1.cgroups 是什么
- 2.cgroups 的作用
- 3.cgroups 术语表
当谈论 Docker 时,常常会聊到 Docker 的实现方式。很多开发者都知道,Docker 容器本质上是宿主机上的进程(容器所在的运行环境统一称为宿主机)。Docker 通过 namespace
实现了 资源隔离,通过 cgroups
实现了 资源限制,通过写时复制机制(copy-on-write
)实现了 高效的文件操作。但当更进一步深入 namespace
和 cgroups
等技术细节时,大部分开发者都会感到茫然无措。所以在这里,希望先带领大家走进 Linux 内核,了解 namespace
和 cgroups
的技术细节。
在前面的博客中,我们了解了 Docker 背后使用的 资源隔离技术 namespace
,通过系统调用构建一个相对隔离的 Shell 环境,也可以称之为简单的 “容器”。这一节将讲解另一个强大的内核工具 cgroups
。它不仅可以限制被 namespace
隔离起来的资源,还可以 为资源设置权重、计算使用量、操控任务(进程或线程)启停 等。在本系列博客介绍完基本概念后,将详细讲解 Docker 中使用到的 cgroups
内容。
注意:在 Linux 系统中,内核本身的调度和管理并不对进程和线程进行区分,只根据
clone
创建时传入参数的不同,来从概念上区别进程和线程,所以本文统一称之为任务。
1.cgroups 是什么
cgroups 最初名为 process container
,由 Google 工程师
P
a
u
l
M
e
n
a
g
e
Paul\ Menage
Paul Menage 和
R
o
h
i
t
S
e
t
h
Rohit\ Seth
Rohit Seth 于 2006 年提出,后来由于 container 有多重含义容易引起误解,就在 2007 年更名为 control groups
,并整合进 Linux 内核,顾名思义就是把任务放到一个组里面统一加以控制。官方的定义如下:
cgroups 是 Linux 内核提供的一种机制,这种机制可以根据需求把一系列系统任务及其子任务整合(或分隔)到按资源划分等级的不同组内,从而为系统资源管理提供一个统一的框架。
通俗地说,cgroups 可以限制、记录任务组所使用的物理资源(包括 CPU、Memory、IO 等),为容器实现虚拟化提供了基本保证,是构建 Docker 等一系列虚拟化管理工具的基石。
对开发者来说,cgroups 有如下 4 个特点。
- cgroups 的 API 以一个伪文件系统的方式实现,用户态的程序可以通过文件操作实现 cgroups 的组织管理。
- cgroups 的组织管理操作单元可以细粒度到线程级别,另外用户可以创建和销毁 cgroup,从而实现资源再分配和管理。
- 所有资源管理的功能都以子系统的方式实现,接口统一。
- 子任务创建之初与其父任务处于同一个 cgroups 的控制组。
本质上来说,cgroups 是内核附加在程序上的一系列钩子(hook
),通过程序运行时对资源的调度触发相应的钩子以达到资源追踪和限制的目的。
2.cgroups 的作用
实现 cgroups 的主要目的是为不同用户层面的资源管理,提供一个统一化的接口。从单个任务的资源控制到操作系统层面的虚拟化,cgroups 提供了以下四大功能。
- 资源限制:cgroups 可以对任务使用的资源总额进行限制。如设定应用运行时使用内存的上限,一旦超过这个配额就发出
OOM
(Out of Memory
)提示。 - 优先级分配:通过分配的 CPU 时间片数量及磁盘 IO 带宽大小,实际上就相当于控制了任务运行的优先级。
- 资源统计:cgroups 可以统计系统的资源使用量,如 CPU 使用时长、内存用量等,这个功能非常适用于计费。
- 任务控制:cgroups 可以对任务执行挂起、恢复等操作。
过去有一段时间,内核开发者甚至把 namespace 也作为一个 cgroups 的子系统加入进来,也就是说 cgroups 曾经甚至还包含了资源隔离的能力。但是资源隔离会给 cgroups 带来许多问题,如 pid namespace
加入后,PID 在循环出现的时候,cgroup 会出现命名冲突、cgroup 创建后进入新的 namespace 导致其他子系统资源脱离了控制等,所以在 2011 年就被移除了。
3.cgroups 术语表
task
(任务):在 cgroups 的术语中,任务表示系统的一个进程或线程。cgroup
(控制组):cgroups 中的资源控制都以 cgroup 为单位实现。cgroup 表示 按某种资源控制标准划分而成的任务组,包含一个或多个子系统。一个任务可以加入某个 cgroup,也可以从某个 cgroup 迁移到另外一个 cgroup。subsystem
(子系统):cgroups 中的子系统就是一个资源调度控制器。比如 CPU 子系统可以控制 CPU 时间分配,内存子系统可以限制 cgroup 内存使用量。hierarchy
(层级):层级由一系列 cgroup 以一个树状结构排列而成,每个层级通过绑定对应的子系统进行资源控制。层级中的 cgroup 节点可以包含零或多个子节点,子节点继承父节点挂载的子系统。整个操作系统可以有多个层级。