学习日记0327
我们使用gnn来学习这些节点的特征。在此基础上,我们使用显式分布距离度量对齐来自两个不同域的特征向量,旨在最小化域差异,实现最大的跨域知识转移。
AEGOT-CDKT
基于以上考虑,本文提出了一种基于跨领域的知识跟踪方法,即AEGOT-CDKT。该方法首先利用图自动编码器在源域和目标域中构建知识跟踪节点属性图。它通过图形注意机制捕获并量化每个域内实体之间复杂的依赖关系和权重分配,从而生成高质量的嵌入向量表示。随后,为了促进这两个领域之间的有效的知识转移,我们设计了一个跨域对齐模块,该模块将跨域对齐问题视为一个图匹配任务。它利用图最优传输(GOT)[13]来建立t的节点和边之间的对应关系。
具体来说,GOT使用瓦瑟斯坦距离(WD)[14]来度量和匹配不同域中的节点,确保节点级的信息一致性。此外,引入格罗莫夫-瓦瑟斯坦距离(GWD)[15]解决了边缘匹配的挑战,保证了图内的跨域数据在边缘结构级别上的精确对齐。通过WD和GWD结合,GOT可以实现图中相应节点的语义信息和拓扑结构的最大匹配,最终实现更精细的跨域对齐。
Huang等人[9]提出了STAN框架来解决域之间的分布转移,huang等人提出的STAN框架通过对齐不同领域之间的难度,帮助模型在不同领域(如不同课程)间迁移时,减少分布偏移带来的性能下降。
CDKT(Cross-Domain Knowledge Tracing,跨领域知识追踪)的目标是对齐两个领域的知识状态分布,从而有效地将知识从源领域迁移到目标领域,用于知识追踪(KT)。
在迁移学习(Transfer Learning)的背景下,我们通常拥有一个信息量更丰富的源领域 SSS 和一个目标领域 TTT。假设学生在某个特定知识概念上的历史习题交互序列为 XXX,那么我们可以分别用 XSX_SXS 和 XTX_TXT 表示该学生在源领域和目标领域的历史答题记录。
进一步地,假设我们已经将**“习题-知识概念”之间的多维交互记录建模为一个图** GGG,那么:
-
经过微调(fine-tuning)的模型(即目标领域模型)生成的图称为目标领域图 GTG_TGT,其中节点嵌入(node embeddings) 表示为 {x1T,x2T,...,x∣VT∣T}\{x_1^T, x_2^T, ..., x_{|V_T|}^T\}{x1T,x2T,...,x∣VT∣T}。
-
预训练模型(源领域模型)生成的图称为源领域图 GSG_SGS,其节点嵌入 为 {x1S,x2S,...,x∣VS∣S}\{x_1^S, x_2^S, ..., x_{|V_S|}^S\}{x1S,x2S,...,x∣VS∣S}。
为了促进跨领域的知识迁移,CDKT 设计了一个跨领域对齐模块(cross-domain alignment module)。这个模块将跨领域对齐问题视为一个图匹配(graph matching)任务,通过匹配和调整不同领域的图结构,来最小化源领域与目标领域在特征空间中的差异,使得从 GSG_SGS 到 GTG_TGT 的知识迁移更加平滑和高效。
提出:


共知识点正确率
其中co_master y表示在与两个知识概念相关的练习中表现出高于平均水平的学生人数。wc i,j表示这两个知识概念之间的共同掌握率,即在这两个概念的练习中表现出高于平均水平的学生的比例。这种共同掌握率反映了两个知识概念之间的关联程度,比率越高,表明学生学习中的概念之间的关系越强。
我们将源域S和目标域T的历史回答记录分别表示为XS和XT
该方法通过图神经网络(GAE)+ LSTM + Graph Optimal Transport 结合的方式,实现跨领域知识追踪(CDKT),提升模型在不同领域中的泛化能力。
AEGOT-CDKT 的整体框架和核心方法:
-
两个阶段:
-
预训练阶段:基于C2C 和 E2E 子图,通过图自编码器学习习题和知识概念的表示。
-
跨领域预测阶段:使用LSTM 模型结合学生的学习行为特征进行预测。
-
-
关键创新点:
-
引入对齐模块,用于减少不同领域之间的分布差异。
-
采用 Graph Optimal Transport 最小化知识状态分布的差距,促进跨领域知识迁移。
-
通过最小化交叉熵损失和最优传输距离来提高跨域知识跟踪模型的性能。
此外,为了进一步关注来自多个向量子空间的有价值的信息,我们引入了GAT的多头注意机制来独立地执行转换,并平均其分层的潜在表示。最后,将第二层输出后的结果由ReLU进行处理,并作为最终的节点嵌入。
除了进行域间对齐之外还要进行域内对齐,域内对齐的动机是确保在同一领域内表现出相似知识掌握水平的学生在嵌入空间中更接近,从而形成更全面和互补的表征。(于知识追踪任务至关重要,因为学生的学习轨迹跨越了多个领域,需要对每个领域内的知识掌握进行细粒度的建模。通过这种对齐,同一领域内的节点嵌入的一致性得到了增强,允许更准确地捕获学生在不同知识概念之间的表现。)
具体来说,如果两个学生在许多相同的知识概念上表现出相似的掌握水平,他们的嵌入就会被调整为彼此更加一致。为了实现这一点,我们设计了以下内积解码器来重建图G的结构,而不区分练习和知识概念:
这个解码策略的核心思想是:
-
利用 GAT 提取节点特征 ziz_izi,使得相似的节点在高维空间中的表示接近。
-
通过内积计算节点之间的关系,如果两个节点的内积较大,表示它们在嵌入空间中相似,更可能是相连的。
-
使用 Sigmoid 归一化,将内积转换为 [0,1][0,1][0,1] 之间的数值,可以理解为"是否存在边"的概率。
这个方法不区分习题(exercise)和知识概念(concept),即它对所有节点一视同仁,仅通过嵌入相似性来重建图结构。
我们首先承认需要将信息从源领域转移到目标领域。该模型应用于两种场景:同一课程的不同阶段之间的跨领域对齐,以及不同学校之间相同课程的跨领域对齐。在这些情况下,一些知识概念可能在两个领域之间共享,但它们在领域特定图中的位置可能会有所不同。尽管不同领域之间的知识概念和练习有所不同,导致知识状态的分布存在显著差异,但仍然存在一些潜在的联系。这些联系包括知识概念之间的层次结构和逻辑关系的相似性,以及练习的难度和形式的相似性。
通过利用知识概念之间以及跨领域的练习之间的语义和结构相似性,我们可以有效地对齐知识状态。因此,我们使用LSTM的隐藏状态作为学生知识状态的表示,并分别计算Wasserstein距离(WD)和Gromov-Wasserstein距离(GWD)。
比如说都是数学,一个一年级,一个六年级......不同学校相同课程,确实,可能学的顺序有差异。
狄拉克函数:积分为1,但在x=0处趋近无穷。