细粒度集群
直觉是 贡献相同频率的标记的日志消息 更有可能有相同的模版,
具体来说,我们首先对每条日志消息进行标记, 然后计算所有标记的评率。
期间上述过程中, 在 Scipy库里 stop 单词是被排除在外以消除不相关的标记。
对于每条日志,选择使用top-K频率标记, 分类到不同的
粗粒度集群。
换句话说, 所以得日志在相同的粗粒度集群共享相同的top-K频率标记。
但是,仅使用频率标记是很难区分不同特征日志的,
即共享相同top-K频率标记可能对应于不同的日志模版,
因此,我们利用了特殊字符(不是字母,数字或空格) 以反映日志消息的特征,
定义特殊字符的集合在日志消息里作为特殊格式,
日志消息来自相同的模版通常共享一个相同的特殊格式,
这是因为常量部分(模版)中的特殊字符总是相同的,
以及