虚拟机中的时统卡功能和性能调优
【写在前面】 飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力,聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域,包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块,旨在共享尖端技术,为开发者提供一个涵盖多领域的开发平台和工具套件。 点击这里开始你的技术升级之旅吧
本文分享至飞腾开发者平台《虚拟机中的时统卡功能和性能调优》
1 介绍
时统卡作为时统终端之一,可以输出准确的 UTC(Coordinated Universal Time)时间,作为授时功能模块广泛应用于航天、航海等领域中。PCI-Express(PCI-E)由于其点对点的串行设计以及双通道高带宽的传输模式,具有较高数据的传输速率,因此时统卡一般使用 PCI-E 接口接入计算机,称之为 PCI-E 时统卡。而随着虚拟化技术和云计算的飞速发展,越来越多的应用运行于云计算的虚拟机中,目前对于虚拟机中授时一般采用宿主机(host)上插入 PCI-E 时统卡进行授时,再通过网络对虚拟机进行授时的方法,不能直接在多台虚拟机中获得时统卡中断脉冲信号进行精度校准,具有较大的延迟。
本文旨在提供一种优化方案,解决时统卡在虚拟机中进行精度校准带来的延迟。
2 测试环境
2.1 宿主机环境
机器类型:FT-2000+/64 服务器
操作系统:centos7.6
内核版本:4.19.105
时统卡:pcie 时统卡
2.2 虚拟机环境
操作系统:centos7.6
内核版本:4.19.105
2.3 适配要求
时统卡为非标设备,需要特殊配置才可以支持,因此需确保三个条件:
1、首先必须确保在 BIOS 中使能 smmu。
2、内核需打上飞腾补丁,即内核中使能 smmu。
3、设备树文件(uboot)或 acpi 描述文件(UEFI)支持。
这3步做完才能在虚拟机中识别时统卡。此外,中断捕获异常是因为,arm平台对于INTx类型的中断没有做虚拟化的硬件支持,所以在arm平台的虚拟机中只能使用msi类型的中断。
3 系统参数调优
3.1 宿主机参数
1)cpu隔离,isolated_cores表示需要隔离的cpu
isolcpus=${isolated_cores}
rcu_nocbs=${isolated_cores}
rcu_nocb_poll
nohz=on
nohz_full=${isolated_cores}
nmi_watchdog=0
quiet
2)禁止带宽限制
echo -1 > /proc/sys/kernel/sched_rt_runtime_us
echo -1 > /proc/sys/kernel/sched_rt_period_us
3)关闭隔离cpu的中断均衡,isolated_cpumask位与isolated_cores相对应
vim /etc/sysconfig/irqbalance
IRQBALANCE_BANNED_CPUS=${isolated_cpumask}
3.2 虚拟机参数
1)虚拟机核绑定并设置调度类型和优先级,配置文件如下:
<cputune>
<vcpupin vcpu='0' cpuset='0'/>
<vcpupin vcpu='1' cpuset='1'/>
<vcpupin vcpu='2' cpuset='2'/>
<vcpupin vcpu='3' cpuset='3'/>
<vcpupin vcpu='4' cpuset='4'/>
<vcpupin vcpu='5' cpuset='5'/>
<vcpupin vcpu='6' cpuset='6'/>
<vcpupin vcpu='7' cpuset='7'/>
<vcpusched vcpus=’0-7’ scheduler=’fifo’ priority=’99’/>
</cputune>
2)添加时统卡设备到虚拟机,address中bdf对应于pcie时统卡设备的总线号、设备号、功能号
<hostdev mode='subsystem' type='pci' managed='yes'>
<source>
<address domain='0x0000' bus='0x09' slot='0x00' function='0x0'/>
</source>
</hostdev>
3)添加虚拟机内核启动参数,可在grub配置文件中添加以下参数:
nohlt
quiet
nosoftlockup
nmi_watchdog=0
4 时统卡驱动优化
4.1 驱动架构设计和修改
1)原驱动程序中断处理程序BUG:对全局共享变量_isr未加锁保护,属内核编程错误。
原来的程序:
2)原驱动程序中断处理采用常用的上、下半部机制,且下半部使用netlink接口递送时间事件,不适合高性能、低延时的特点,属于编程架构设计不合理。
修改后的驱动中断处理程序:去掉中断下半部;重写时间事件分发处理逻辑;使用eventfd通
知机制。
3)时统卡字符设备的功能接口实现:重新实现其他必要的功能接口。
原来的驱动程序:
修改后的驱动程序:
在ioctl接口中实现evenfd的功能代码。
4)pci驱动probe里使能msi中断。
原来的pci probe驱动程序使能intx中断
修改后的驱动程序使能msi中断:
5)重写字符设备驱动代码:字符设备只需在module_init注册,无需在pci驱动的probe里注册。
原来的驱动程序:
修改后的驱动程序:字符驱动和pci驱动分开注册,代码简洁且更符合工程要求。
6)映射时统卡的bar空间到用户空间,便于用户空间线程直接轮询中断,进一步优化时间延迟。
static int dti_mmap(struct file *file, struct vm_area_struct *vma)
{
int ret;
unsigned long addr;
spin_lock(&(dti_p->lock_reg));
addr = dti_p->pci_addr;
if (addr & (PAGE_SIZE - 1))
return -ENOSYS;
vma->vm_page_prot = pgprot_noncached(vma->vm_page_prot);
ret = vm_iomap_memory(vma, addr, PAGE_SIZE);
spin_unlock(&(dti_p->lock_reg));
return ret;
}
7)实现时统卡设备其他的通用接口
static unsigned int dti_poll(struct file *file, poll_table *wait)
{
int l;
poll_wait(file, &dti_wait, wait);
spin_lock_irq(&dti_lock);
l = dti_has_irq;
spin_unlock_irq(&dti_lock);
if (l != 0)
return POLLIN;
return 0;
}
static ssize_t dti_read(struct file *file, char __user *buf, size_t
count, loff_t *ppos)
{
DECLARE_WAITQUEUE(wait, current);
unsigned long data;
ssize_t retval;
spin_lock_irq(&dti_lock);
if (dti_has_irq == 0)
return -EIO;
spin_unlock_irq(&dti_lock);
if (count != sizeof(unsigned int) && count != sizeof(unsigned long))
return -EINVAL;
add_wait_queue(&dti_wait, \&wait);
do {
__set_current_state(TASK_INTERRUPTIBLE);
spin_lock_irq(&dti_lock);
data = dti_has_irq;
dti_has_irq = 0;
spin_unlock_irq(&dti_lock);
if (data != 0)
9break;
if (file->f_flags & O_NONBLOCK) {
retval = -EAGAIN;
goto out;
}
if (signal_pending(current)) {
retval = -ERESTARTSYS;
goto out;
}
schedule();
} while (1);
if (count == sizeof(unsigned int)) {
retval = put_user(data, (unsigned int __user *)buf) ?: sizeof(int);
} else {
retval = put_user(data, (unsigned long __user *)buf) ?: sizeof(long);
}
if (!retval)
retval = count;
out:
__set_current_state(TASK_RUNNING);
remove_wait_queue(&dti_wait, &wait);
return retval;
}
5 时统卡应用程序优化
5.1 应用程序架构设计和修改
1)主线程(master)的处理逻辑
测试程序如果在物理机上运行,主线程通过eventfd/poll接口轮询内核中断事件,可以到达测试目标。
测试程序如果在虚拟机上运行,主线程则需要直接轮询设备的中断寄存器,才可以达到测试目标。
下面以虚拟机为例:
2)从线程(slave)的处理逻辑
6 测试结果
1)下图表示未进行任何优化的结果。
2)下图表示最后的优化结果,且运行时间超过48h。
3)下图表示不同阶段的优化结果趋势图,其中横坐标表示中断频率,纵坐标表示中断丢失lost数。
推荐阅读
- 飞腾平台Ne10安装使用指南
- 飞腾平台VSIPL-FT安装使用指南
欢迎广大开发者来飞腾开发者平台获取更多前沿技术文档及资料
如开发者在使用飞腾产品有任何问题可通过在线工单联系我们
版权所有。飞腾信息技术有限公司 2023。保留所有权利。
未经本公司同意,任何单位、公司或个人不得擅自复制,翻译,摘抄本文档内容的部分或全部,不得以任何方式或途径进行传播和宣传。
商标声明
Phytium和其他飞腾商标均为飞腾信息技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意
本文档的内容视为飞腾的保密信息,您应当严格遵守保密任务;未经飞腾事先书面同意,您不得向任何第三方披露本文档内容或提供给任何第三方使用。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,飞腾在现有技术的基础上尽最大努力提供相应的介绍及操作指引,但飞腾在此明确声明对本文档内容的准确性、完整性、适用性、可靠性的等不作任何明示或暗示的保证。
本文档中所有内容,包括但不限于图片、架构设计、页面布局、文字描述,均由飞腾和/或其关联公司依法拥有其知识产权,包括但不限于商标权、专利权、著作权等。非经飞腾和/或其关联公司书面同意,任何人不得擅自使用、修改,复制上述内容。