Linux 实时同步服务实现(Rsync 结合 Inotify)
文章目录
- 1. 实时同步服务介绍
- 2. Inotify 机制介绍
- 3. Inotify-tool+Rsync 实时同步实践
- 3.1 确认远程数据传输服务部署完成
- 3.2 检查Linux系统是否支持Inotify实时监控
- 3.3 安装inotify-tools
- 3.4 命令测试
- 3.5 重要监控事件汇总
- 3.6 使用步骤
- 4. Sersync 工具使用(重点)
- 4.1 Sersync 软件架构及工作原理
- 4.2 Sersync部署环境准备
- 4.3 Sersync程序部署安装
- 5. 解决NFS存储实时同步
Linux 作为主流操作系统,提供了多种强大的实时同步工具。本文主要聚焦 Rsync 结合 Inotify 方式来实现 Linux 实时同步服务,先介绍原理,再通过实践展示配置过程。
1. 实时同步服务介绍
实时同步服务是一种数据处理技术,它能使数据在不同的系统、设备或存储位置之间,以极短的延迟进行更新和保持一致。
- 工作原理
实时同步服务通过持续监控数据源的变化,一旦发现有数据的新增、修改或删除操作,就立即将这些变化传输到目标端,并在目标端应用这些变化,从而确保数据源和目标端的数据在任何时刻都尽可能保持一致。
- 数据备份方案介绍
在网站集群架构中,数据永远是最重要的,一旦数据丢失将会造成巨大损失,因此需要有完善的数据备份方案确保数据安全。
【利用
定时方式实现周期备份
重要数据信息】
需要周期性备份的数据可分为两类:
- 一是程序员发布的程序代码以及运维人员对服务器等的配置变更文件,一般会使用定时任务执行脚本对该类文件进行备份,然后再配合Rsync工具推送到远端服务器备份;
- 二是对于数据库等的数据会用定时执行脚本【通过数据库自带(或第三方)的备份工具定时备份成文件】备份,然后再配合Rsync 工具推送到远端服务器备份。
【利用
实时复制方式
实现实时备份重要数据信息】
实时复制是实际工作中数据备份最重要的方式,主要用于用户提交的数据的备份。
- 对于用户提交到服务器上的普通文件(图片、压缩包、视频、文档等),可采用
Inotify/Sersync + Rsync
实时备份方式;- 对于数据文件还有较复杂的分布式存储工具可以实现将数据同时备份成多份,如
FastDFS
、Synchronize
、GlusterFS
等;- 对于提交到数据库中的数据,可使用数据库的
主从复制
(如 MySQL、Oracle)方式备份,这是软件自带的实时复制备份方式。
这里主要对
Inotify + Rsync
模式的实时同步实现方式进行介绍。
2. Inotify 机制介绍
Inotify 是 Linux 内核提供的一种异步的文件系统变化通知机制,它允许应用程序通过内核接口监视文件系统的变化,从而实现对文件或目录的实时监控,能够监控文件系统中添加、删除、修改、移动等各种事件,使得第三方软件可以监控文件系统下文件的各种变化情况。
- Inotify 机制工作原理
Inotify机制的工作原理如下:
- 初始化:应用程序使用
inotify_init
系统调用来创建一个inotify实例,内核会为该实例分配一个独立的排序队列,并返回一个文件描述符,用于后续对该实例的操作。 - 添加监控:应用程序通过
inotify_add_watch
系统调用,为指定的文件或目录添加监视描述符。在这个过程中,应用程序需要指定要监听的事件类型,如文件的创建、删除、修改等。内核会为每个监视的目标创建一个inotify_watch
结构,并将其插入到被监视目标对应的inode
的inotify_watches
列表中,以此来跟踪和管理监视的文件或目录以及感兴趣的事件。 - 事件产生与处理:当被监视的文件或目录发生变化时,例如进行了读写、创建、删除等操作,相应的文件系统代码会调用
fsnotify_*
系列函数(*号代表具体的事件名),最终调用inotify_inode_queue_event
函数。该函数会遍历inotify_watches
列表,判断当前的文件操作事件是否被某个watch
所监视。如果是,则进一步调用inotify_dev_queue_event
函数。inotify_dev_queue_event
函数会先判断该事件是否为上一个事件的重复,如果是则丢弃;否则,检查inotify
实例的事件队列是否溢出,如果溢出则产生一个溢出事件,否则创建一个当前文件操作事件,将其插入到inotify_device
对象的events
事件列表中,并唤醒等待在inotify_device
结构中wq
指向的等待队列中的进程。 - 读取通知:应用程序使用
read
系统调用,通过inotify_init
返回的文件描述符来读取事件通知。一次read
调用可以获取多个事件,只要提供的缓冲区足够大。应用程序可以根据读取到的事件信息来执行相应的操作。 - 移除监控:应用程序使用
inotify_rm_watch
系统调用来停止对某个文件或目录的监视,内核会释放相应的inotify_watch
结构。当应用程序不再需要使用inotify
实例时,关闭inotify_init
返回的文件描述符,内核会释放inotify_device
结构以及相关的资源。
【通俗一点来讲】
Inotify 机制就像是一个 “文件系统小管家”,专门负责留意文件和文件夹的各种变化,并及时把这些变化告诉需要知道的程序。
- 建立联系
当一个程序想要知道文件系统里发生了什么变化时,它会向操作系统说:“我要关注文件变化啦!” 这时,操作系统就会创建一个类似 “情报站” 的东西,还会给程序一个 “通行证”(文件描述符),程序以后就用这个 “通行证” 和 “情报站” 交流。- 指定关注对象
程序拿到 “通行证” 后,就会告诉 “情报站”:“我想关注这些文件和文件夹,它们要是有创建、删除、修改这些情况,你就赶紧告诉我。” “情报站” 会把这些要关注的目标记下来,就像在本子上列了个清单- 发现变化并报告
在程序关注的文件和文件夹里,只要有任何风吹草动,比如新建了一个文件、删除了一个文件夹或者修改了某个文件的内容,“情报站” 安插在这些地方的 “小眼线” 就会察觉到。“小眼线” 会把这些变化信息整理成 “情报”,放到 “情报站” 的 “收件箱” 里。同时,“情报站” 还会提醒程序:“有新情报啦,快来看看!”- 程序获取信息
程序收到 “情报站” 的提醒后,就会用 “通行证” 去 “情报站” 的 “收件箱” 里取 “情报”。程序会根据这些 “情报” 的内容,决定下一步要做什么,比如更新自己的数据、备份文件等。- 结束关注如果程序不想再关注某些文件或文件夹了,它会告诉 “情报站”:“这些不用再盯着了。” “情报站” 就会把这些目标从清单上划掉。要是程序完全不需要 “情报站” 服务了,它就会交回 “通行证”,“情报站” 也会把自己关闭,把相关的资源都释放掉。
Inotify程序原理是一种事件驱动机制,它为应用程序监控文件系统事件提供了实时响应事件的机制,可以做到对事件处理的实时响应。
这里我们详细说明的主要是
inotify-tools
和sersync
两种实现方式。接下来我们结合实践来看看实时同步如何实现。
3. Inotify-tool+Rsync 实时同步实践
实时同步软件核心功能是监控指定的目录内的数据变化。实现复制到远端服务器依然需要Rsync工具的配合,这些软件几乎都是在Inotify机制的接口上的软件封装,具体的工作机制流程为:
- 备份源客户端开启运行Inotify软件服务进程,监测指定目录的文件系统变化;
- 一旦获取到指定监控目录的数据发生变化,即执行rsync命令复制数据;
- 将变化的数据发送到rsync服务端的备份目录中。
因为之前的博文里已经有说明Rsync服务的搭建方法,所以接下来的Inotify 配置是默认在rsync服务搭建完成的。
3.1 确认远程数据传输服务部署完成
前提是Rsync服务配置成功,可以在客户端上推送、拉取数据到BACKUP备份服务器,然后才能配置Inotify-tools
工具服务。客户端需要做如下部署:
# 采用密码环境变量的方式,配置永久生效。
[root@nfs ~]# echo 'export RSYNC_PASSWORD=123456' >>/etc/bashrc
[root@nfs ~]# source /etc/bashrc
[root@nfs ~]# echo $RSYNC_PASSWORD
123456
## 测试推送和拉取数据信息
[root@nfs ~]# rsync -avz /data rsync_backup@172.16.1.41::backup/
sending incremental file list
sent 164 bytes received 25 bytes 126.00 bytes/sec
total size is 0 speedup is 0.00
3.2 检查Linux系统是否支持Inotify实时监控
根据官方说明,内核从 2.6.13
起,才支持Inotify功能,因此需要在部署实时复制服务之前,查看系统的版本以及具体的查看是否支持。
通过检查
/proc/sys/fs/inotify
目录中是否存在以下三个文件,可以确认系统是否支持实时监控程序。
[root@nfs ~]# uname -r
3.10.0-957.5.1.el7.x86_64 《== 确认内核支持机制
[root@nfs ~]# ls -l /proc/sys/fs/inotify/
总用量 0
-rw-r--r-- 1 root root 0 4月 19 09:45 max_queued_events
-rw-r--r-- 1 root root 0 4月 19 09:45 max_user_instances
-rw-r--r-- 1 root root 0 4月 19 09:45 max_user_watches
## 显示这三个文件证明系统支持Inotify程序功能
文件名称 | 作用说明 |
---|---|
max_user_watches | 设置inotifywait 或 inotifywatch 命令可以监视的文件数量(单线程) |
max_user_instances | 设置每个用户可以运行的 inotifywait 或 inotifywatch 命令的进程数 |
max_queued_events | 设置Inotify 实例事件(event)队列可容纳的事件数量。实例的概念就是,多个相同的服务,启动运行多个进程。 |
/proc/sys/fs/inotify
目录中的这三个文件可以用来限制通过Inotify接口消耗内核内存的数量。默认配置内容:
[root@nfs ~]# cat /proc/sys/fs/inotify/max_user_watches 8192 [root@nfs ~]# cat /proc/sys/fs/inotify/max_user_instances 128 [root@nfs ~]# cat /proc/sys/fs/inotify/max_queued_events 16384
3.3 安装inotify-tools
# 安装epel源,默认的官方源没有 inotify-tools 工具包。
yum install epel-release -y
# 下载Inotify软件工具
yum install inotify-tools -y
# 查看软件命令
[root@nfs ~]# rpm -ql inotify-tools|head -2
/usr/bin/inotifywait # 软件命令,对指定的文件或目录进行监控
/usr/bin/inotifywatch # 软件命令,收集文件系统事件的统计信息
## 查看软件版本
[root@nfs ~]# rpm -qa inotify-tools
inotify-tools-3.14-8.el7.x86_64
安装 inotify-tools
软件之后,主要通过两个命令来实现数据信息的监控。
- 一个是利用
inotifywait
命令实现对数据变化事件的监控。在被监控的目录等待特定文件系统事件(open、close、delete等)发生,执行后处于阻塞状态,适合在shell脚本中使用。(此命令是重点) - 另一个是利用
inotifywatch
命令实现对数据时间信息的统计。收集被监控的文件系统使用的统计数据,指文件系统事件发生的次数。
【
inotifywait
命令参数】
命令参数 参数说明 -m | --monitor 始终保持事件监听状态(重要参数) -d | --daemon 类似于 -m 参数,只是将命令运行在后台
记录触发的事件信息在指定的文件中,利用--outfile
参数
定义程序日志使用--syslog
参数-r 递归监控目录数据信息变化(重要参数) -o | --outfile 打印事件到文件中,相当于标准正确输出 -s | --syslog 发送错误到syslog,相当于标准错误输出 -q | --quite 输出信息少(只打印事件信息) –excludei 排除文件或目录时,不区分大小写 –timefmt 指定时间输出格式 –format 打印使用指定的输出,类似格式字符串,即实际监控输出的内容 -e 指定监听指定的事件,如果省略,则表示所有事件都进行监听。(重要参数) 以上参数主要为命令相关参数,利用Inotify软件主要对数据产生的事件进行实时监控,下面表格列出来了常用的监控时间的信息:
事件名称 事件说明 access 文件或目录内容被读取 modify 文件或目录内容被写入 attrib 文件或目录属性改变 close_write 文件或目录关闭,在写入模式打开之后关闭的 close_nowrite 文件或目录关闭,在只读模式打开之后关闭的 close 文件或目录关闭,不管是读或是写模式 open 文件或目录被打开 moved_to 文件或目录被移动到监控的目录中 moved_from 文件或目录从监控的目录中被移动 move 文件或目录只要发生移动就触发事件 create 文件或目录被创建在监控的目录中 delete 文件或目录被删除,在监控的目录中 delete_self 文件或目录被删除 unmount 文件系统包含的文件或目录不能被卸载
3.4 命令测试
## 命令格式:
【命令】 【命令参数相应】 【监控事件】 【监控目录】
inotifywait -mrq --timefmt '%d/%m/%y %H:%M' --format '%T %w%f' -e create /data
# 监控 /data 目录创建事件显示信息
# 命令执行之后,在/data目录下文件会随着文件创建实时出现。
# 此命令只能监控创建事件。
3.5 重要监控事件汇总
在实际使用时,只要监控以下事件即可:create(创建)、delete(删除)、moved_to(移入)、close_write(修改)
3.6 使用步骤
- 第一步:手动测试语句
[root@nfs ~]# inotifywait -mrq --format '%w%f' -e close_write,delete /data
## 同时监控/data目录的增删改事件
- 第二步:编写实时监控和复制的脚本
[root@nfs scripts]# cat monitor.sh
#!/bin/sh
cmd="/usr/bin/inotifywait"
$cmd -mrq --format '%w%f' -e close_write,delete /data|\
while read line
do
# 《== 删除事件发生复制动作,用rsync命令对整个目录复制
[ ! -e "$line" ] && cd /data &&\ #《== 删除文件时,因为文件已经不存在了,因此只能切换到复制目录下。
rsync -az --delete ./ rsync_backup@172.16.1.41::backup && continue
#《== 对整个目录进行复制,然后终止当前循环
#《== 处理增改事件复制动作,只针对修改的文件进行复制,提升性能
rsync -az --delete $line rsync_backup@172.16.1.41::backup
done
- 第三步:测试效果,没问题的话,加入
rc.local
,实现开机自启动。
Sersync
相比 inotify - tools
优势显著。它将监控与同步集成,以多线程实现高效实时同步,无需复杂脚本。通过 XML 配置文件管理,参数丰富且灵活。具备失败重试机制,日志记录详尽助于监控,资源管理优化,稳定性高 。
4. Sersync 工具使用(重点)
Sersync
项目利用Inotify+Rsync
技术实现对服务器数据实时复制的解决方案,其中Inotify
用于监控Sersync
所在服务器上文件系统的事件变化,当事件发生变化时就调用Rsync
命令将变化的数据复制到远端服务器上。
4.1 Sersync 软件架构及工作原理
Inotify
监控指定目录对应事件的变化,当有事件变化时进入事件过滤队列。- 过滤队列负责过滤不需要复制的数据,也可以过滤短时间内产生的
重复Inotify事件
信息,过滤后的事件触发Rsync
对变化数据进行复制。 - 图中的线程组线程是等待线程队列的守护线程,当事件队列中有事件发生的时候,线程组守护线程就会逐个唤醒复制线程,当队列中的
Inotify
事件较多的时候,复制线程就会被全部唤醒一起工作,以提升复制的效率。 - 除了线程组线程之外,还有
Sersync
服务线程负责处理复制失败的文件,将他们再次复制,对于再次复制失败的文件(命令)记录到rsync_fail_log.sh
脚本,然后定期再次执行脚本,同时利用自带的cron
功能,实现每隔一定时间将所有未复制的数据再次执行复制。
4.2 Sersync部署环境准备
同上3.1和3.2的内容,这里不再进行重复。
4.3 Sersync程序部署安装
此处的部署是按照解决nfs单点故障的解决来进行部署的。可以根据实际情况灵活调整。
在NFS服务器上部署Sersync服务,配置sersync实时监控共享目录
/data
的变化,将发生的变化实时推送到rsync备份服务器。
- 安装 inotify-tools
[root@nfs ~]# yum -y install inotify-tools
- 下载或者windows上传sersync压缩包,建议上传,不要直接下载
[root@nfs ~]# wget https://raw.githubusercontent.com/wsgzao/sersync/master/sersync2.5.4_64bit_binary_stable_final.tar.gz
[root@nfs ~]# ls
sersync2.5.4_64bit_binary_stable_final.tar.gz
[root@nfs ~]# mkdir /server/tools -p
# 上传到/server/tools目录
[root@nfs tools]# mv /root/sersync2.5.4_64bit_binary_stable_final.tar.gz sersync.tar.gz
[root@nfs tools]# ll
total 1936
-rw-r--r-- 1 root root 1981010 Dec 6 09:25 sersync.tar.gz
- 解压目录
[root@nfs tools]# tar xf sersync.tar.gz
# 改一下文件夹名
[root@nfs tools]# mv GNU-Linux-x86 sersync
[root@nfs tools]# ll
total 0
drwxr-xr-x 2 root root 41 Oct 26 2011 sersync
[root@nfs tools]# cd sersync/
[root@nfs sersync]# ll
total 1772
-rwxr-xr-x 1 root root 2214 Oct 26 2011 confxml.xml
-rwxr-xr-x 1 root root 1810128 Oct 26 2011 sersync2
- 配置文件
confxml.xml
<?xml version="1.0" encoding="ISO-8859-1"?>
<!--软件版本-->
<head version="2.5">
<!--主机IP和端口号-->
<host hostip="localhost" port="8008"></host>
<!--是否开启排错-->
<debug start="false"/>
<!--文件系统-->
<fileSystem xfs="false"/>
<!--过滤功能,排除指定的文件不进行复制-->
<filter start="false">
<exclude expression="(.*)\.svn"></exclude>
<exclude expression="(.*)\.gz"></exclude>
<exclude expression="^info/*"></exclude>
<exclude expression="^static/*"></exclude>
</filter>
<!--软件监控指定的事件信息:表示触发监控管理的事件-->
<inotify>
<delete start="true"/>
<createFolder start="true"/>
<createFile start="true"/>
<closeWrite start="true"/>
<moveFrom start="true"/>
<moveTo start="true"/>
<attrib start="false"/>
<modify start="false"/>
</inotify>
<!--Sersync主要参数信息配置-->
<sersync>
<!--被监控的目录-->
<localpath watch="/data">
<!--指定复制到的机器(Rsync服务器),IP和模块名。支持多台机器,多模块复制-->
<remote ip="172.16.1.41" name="data"/>
<!--<remote ip="192.168.8.39" name="tongbu"/>-->
<!--<remote ip="192.168.8.40" name="tongbu"/>-->
</localpath>
<!--配置Rsync服务参数信息-->
<rsync>
<!--rsync命令的参数-->
<commonParams params="-avz"/>
<!--匿名(认证)用户和密码文件-->
<auth start="true" users="rsync_backup" passwordfile="/etc/rsync.password"/>
<!--端口,支持修改-->
<userDefinedPort start="false" port="874"/><!-- port=874 -->
<!--超时时间-->
<timeout start="true" time="100"/><!-- timeout=100 -->
<!--支持SSH远程-->
<ssh start="false"/>
</rsync>
<!--传输失败内容放置的文件,默认每60分钟执行一次-->
<failLog path="/tmp/rsync_fail_log.sh" timeToExecute="60"/><!--default every 60mins execute once-->
<!--定时任务配置-->
<crontab start="false" schedule="600"><!--600mins-->
<!--定时任务排除复制的内容-->
<crontabfilter start="false">
<exclude expression="*.php"></exclude>
<exclude expression="info/*"></exclude>
</crontabfilter>
</crontab>
<!--是否使用其他的插件-->
<plugin start="false" name="command"/>
</sersync>
<!--插件配置内容-->
<plugin name="command"> <!--命令部分配置-->
<param prefix="/bin/sh" suffix="" ignoreError="true"/> <!--prefix /opt/tongbu/mmm.sh suffix-->
<filter start="false">
<include expression="(.*)\.php"/>
<include expression="(.*)\.sh"/>
</filter>
</plugin>
<plugin name="socket"> <!--socket部分配置-->
<localpath watch="/opt/tongbu">
<deshost ip="192.168.138.20" port="8009"/>
</localpath>
</plugin>
<plugin name="refreshCDN"> <!--刷新CDN部分配置-->
<localpath watch="/data0/htdocs/cms.xoyo.com/site/">
<cdninfo domainname="ccms.chinacache.com" port="80" username="xxxx" passwd="xxxx"/>
<sendurl base="http://pic.xoyo.com/cms"/>
<regexurl regex="false" match="cms.xoyo.com/site([/a-zA-Z0-9]*).xoyo.com/images"/>
</localpath>
</plugin>
</head>
- 启动服务
# 命令 参数 文件
[root@nfs ~]# /server/tools/sersync/sersync2 -dro /server/tools/sersync/confxml.xml
# 或者使用相对路径
[root@nfs sersync]# ./sersync2 -dro ./confxml.xml
- 查看帮助
[root@nfs sersync]# ./sersync2 -h # 或者使用绝对路径/server/tools/sersync/sersync2
set the system param
execute:echo 50000000 > /proc/sys/fs/inotify/max_user_watches
execute:echo 327679 > /proc/sys/fs/inotify/max_queued_events
parse the command param
_______________________________________________________
参数-d:启用守护进程模式
参数-r:在监控前,将监控目录与远程主机用rsync命令推送一遍
参数-n: 指定开启守护线程的数量,默认为10个
参数-o:指定配置文件,默认使用confxml.xml文件
参数-m:单独启用其他模块,使用 -m refreshCDN 开启刷新CDN模块
参数-m:单独启用其他模块,使用 -m socket 开启socket模块
参数-m:单独启用其他模块,使用 -m http 开启http模块
不加-m参数,则默认执行同步程序
________________________________________________________________
sersync参数 | 参数解释说明 |
---|---|
-d | 启用守护进程模式(重要参数) |
-r | 在监控前,将监控目录与远程主机用rsync命令推送一遍 |
-n | 指定开启守护线程的数量,默认为10个 |
-o | 指定配置文件,默认使用confxml.xml文件 |
-m | ①、单独启用其他模块,使用-m refreshCDN 开启刷新CDN模块 ②、单独启用其他模块,使用-m socket 开启socket模块 ③、单独启用其他模块,使用-m http 开启 HTTP 模块如果不加 -m 的话,则默认执行复制程序。 |
注意事项:参数出错虽然启动运行了,但是不推送,不监控……
出问题时,进行调整配置文件后,往往会多次调整,启动服务。这样会导致许多进程在执行,所以需要找到多余的存活进程,干掉进程。
1.过滤进程
[root@nfs ~]# ps axu|grep sersync
2.结束进程后再修改,修改完成在运行
Kill -9 pid
5. 解决NFS存储实时同步
有些时候觉得NFS性能不高,其实在共享存储的时候,可以使用读写分离的方案。
-
用户上传时把文件上传到NFS上,这部分写的并发要比读小的多,可能写读比只有 1:20;
-
然后借用 Inotify(Sersync)+ Rsync 方案把NFS上的数据实时复制到本地Web服务器(静态服务器);
-
Web服务器直接读取本地的目录实时复制过来的文件,如果本地没有的话,再去NFS共享上读取文件,缓解延迟带来的问题;
-
经过实测, Inotify(Sersync)+ Rsync 方案可以单进程多线程并发处理200个100K左右的文件,而不会延迟。当然也可以开多进程,拆分监控不同的二级目录
综上所述,Rsync 结合 Inotify 为 Linux 系统提供了高效实时同步方案。通过 Inotify 监控文件变化,结合 Rsync 传输数据,可实现数据实时更新。同时,Sersync 工具在监控与同步集成上更具优势。希望本文能供实用参考。