《AliCoCo: Alibaba E-commerce Cognitive Concept Net》中文校对版
文章汉化系列目录
文章目录
- 文章汉化系列目录
- 摘要
- 引言
- 2 概述
- 3 分类体系
- 4 原始概念
- 4.1 词汇挖掘
- 4.2 上位词发现
- 4.2.1 基于模式的方法
- 4.2.2 投影学习
- 4.2.3 主动学习
- 5 电子商务概念
- 5.1 标准
- 5.2 生成
- 5.2.1 候选项生成
- 5.2.2 分类
- 5.3 理解
- 5.3.1 文本增强概念编码器
- 5.3.2 模糊CRF层
- 6 商品关联
- 7 评估
- 7.1 总体评估
- 7.2 原始概念挖掘
- 7.3 上位词发现
- 7.5 电子商务概念标注
- 7.6 概念与商品的语义匹配
- 8 应用
- 8.1 电子商务搜索
- 8.1.1 搜索相关性
- 8.1.2 语义搜索与问答
- 8.2 电子商务推荐
- 8.2.1 认知推荐
- 8.2.2 推荐理由
- 9 相关工作
- 10 结论
摘要
电子商务平台的终极目标之一是满足用户的各种购物需求。为了实现这一目标,许多努力集中在电子商务中的分类体系或本体的构建上。然而,电子商务中的用户需求尚未得到明确定义,现有的本体在深度和广度上均不足以实现对普遍用户需求的全面理解。二者之间的语义鸿沟阻碍了购物体验的进一步智能化。在本文中,我们提出构建一个大规模的电子商务认知概念网,命名为“AliCoCo”,这是在全球最大的中国电子商务平台阿里巴巴中实践的。我们正式定义了电子商务中的用户需求,并将其概念化为网络中的节点。文章详细介绍了AliCoCo是如何半自动化构建的,以及其在电子商务中的成功应用、正在进行的应用和潜在应用。
引言
电子商务平台的一个主要功能是将客户的购物需求与海量候选商品集中筛选为一个小的商品集合。随着搜索引擎和推荐系统的快速发展,客户能够迅速找到他们所需的商品。然而,这种体验距离“智能化”仍有很大差距。一个重要原因是用户心中所需与电子商务平台上商品的组织方式之间存在巨大的语义鸿沟。在阿里巴巴(实际上几乎所有电子商务平台)中,用于组织商品的分类体系通常基于CPV(类别-属性-值):数千个类别根据不同的粒度构成了一个层级结构,并在每个叶节点上定义了诸如颜色和尺寸等属性。这是一种组织和管理当今电子商务平台上数十亿商品的自然方式,并且已经成为搜索和推荐等下游应用的基本组成部分。然而,由于语义鸿沟的存在,现有的电子商务分类体系或本体难以全面准确地解释用户的各种需求,这一点将在接下来的两个场景中进行解释。
多年来,电子商务搜索引擎一直在引导用户如何明智地输入关键词,以便快速找到所需商品。然而,基于关键词的搜索似乎只适用于那些明确知道自己想购买的具体产品的用户。问题在于,用户并不总是知道确切的产品。他们更可能心中有一个产品类型或类别,并带有一些额外的特征。更糟糕的是,他们可能仅有一个场景或问题,但完全不知道哪些商品能够解决问题。在这种情况下,用户可能会选择在电子商务平台之外进行一些研究,以缩小到具体的产品范围,这不仅损害了用户体验,还使得电子商务搜索引擎显得毫无智能可言。追溯其根本原因,在于现有的电子商务本体中并不包含结构化知识,例如哪些商品适合“户外烧烤”或什么商品可以“防止老人迷路”。输入这样的搜索查询不可避免地导致用户需求的错配,而查询理解则简单退化为关键词匹配。
同样的问题也存在于商品推荐中。在现实工业场景中,由于交易数据规模巨大,推荐算法广泛采用基于商品的协同过滤(item-based CF)[24]的思路。这种方法依赖于商品对之间的预计算相似性,在较少计算量的情况下,可以从极大的选项集中推荐商品。推荐系统利用用户的历史行为作为触发器,召回一小部分最相似的商品作为候选项,然后通过排名模型对候选商品打分并推荐权重最高的商品。这种框架的一个关键缺点是,它并非以用户需求为驱动。这不可避免地导致一个困境:推荐的商品难以解释,除了诸如“与用户已浏览或购买的商品相似”这样琐碎的理由外,几乎无法说明推荐逻辑。此外,这种方法也阻碍了推荐系统跳脱出用户历史行为,去探索其他隐性或潜在的用户兴趣。因此,尽管这种方法被广泛采用,但当前推荐系统的表现仍备受批评。用户抱怨一些推荐结果过于冗余且缺乏新意,因为现有的推荐系统只能满足非常有限的用户需求,比如对某一特定类别或品牌的需求。当前电子商务本体中缺乏能够表示各种用户需求的中间节点,这一问题限制了推荐系统的发展。
在本文中,我们尝试通过构建一个面向普遍用户需求理解的新本体,来弥合实际用户需求与现有电子商务平台本体之间的语义鸿沟。研究表明,人类的认知系统是基于概念的[4, 20],而概念的分类和本体赋予人类理解能力[30]。受此启发,我们主要基于概念构建本体,并将其命名为“AliCoCo”,即阿里巴巴认知概念网。与大多数仅包含类别或品牌等节点的现有电子商务本体不同,我们引入了一种新的节点类型,例如“户外烧烤”和“孩子保暖”,作为桥接用户和商品的概念节点,以满足一些高级用户需求或购物场景。如图1顶部所示,我们称这些节点为“电子商务概念”,其结构代表了一组来自不同类别并具有特定约束条件的商品(更多细节见第5节)。例如,“户外烧烤”是一个电子商务概念,包含烤架、黄油等商品,这些商品是举办成功的户外烧烤派对所需的必备物品。因此,AliCoCo可以在用户输入关键词“烧烤户外”后,帮助搜索引擎直接向客户建议“举办户外烧烤所需的商品”,或者帮助推荐系统在预计下周将有暴风雪时,提醒用户准备一些“让孩子保暖的物品”。
图1:“AliCoCo”概览,由四个层级组成:
- 电子商务概念(E-commerce Concepts):这是最顶层,包含如“户外烧烤”或“孩子保暖”这样的桥接概念,直接映射用户的高层需求和购物场景。
- 原始概念(Primitive Concepts):作为中间层,原始概念为电子商务概念提供支持,将其分解为更加基础的组成要素,例如特定功能或属性。
- 分类体系(Taxonomy):现有电子商务平台的分类体系,包含具体类别和属性节点,如类别(烤架、户外椅)和属性(大小、颜色)。
- 商品层(Items):最底层,具体到平台上实际存在的商品,与分类体系中的节点直接关联。
这种分层结构实现了用户需求到实际商品的跨层级映射,使“AliCoCo”能够弥补语义鸿沟并优化用户的搜索与推荐体验。
-
我们认为,当前电子商务平台中的本体无法很好地表示和理解实际的用户需求,因此阻碍了购物体验变得更加智能化。为了解决这一语义鸿沟,我们正式定义了电子商务中的用户需求,并提出构建一个端到端的大型综合知识图谱“AliCoCo”,其中的“概念”节点能够明确表示用户的各种购物需求。
-
为了构建这样一个大规模的知识图谱,我们采用了一种半自动化的方法,将机器学习与人工结合。我们详细介绍了AliCoCo的四层结构以及五个关键技术组件。对于每个组件,我们定义了问题,指出了挑战,描述了有效的解决方案,并进行了全面的评估。
-
AliCoCo已经在中国最大的电子商务平台阿里巴巴中投入使用,并为包括搜索和推荐在内的一系列应用提供了支持。我们相信,用户需求理解的理念可以进一步应用于更多的电子商务场景。“用户需求驱动”的电子商务领域仍然有广阔的想象空间和创新潜力。
本文其余部分的结构如下:首先,我们概述AliCoCo(第2节),然后介绍如何构建其四个层级:分类体系(第3节)、原始概念(第4节)、电子商务概念(第5节)和商品关联(第6节)。第7节展示了AliCoCo的总体统计数据以及五个主要技术模块的评估结果。接着,我们在第8节讨论了一些成功的、正在进行的以及潜在的应用。第9节提到了相关工作,最后,第10节给出了结论并描绘了未来可能的工作方向。
2 概述
AliCoCo 提供了一种在统一框架内描述和理解电子商务中用户需求和商品的替代方法。如图1所示,AliCoCo由四个组成部分构成:电子商务概念(E-commerce Concepts)、原始概念(Primitive Concepts)、分类体系(Taxonomy)和商品(Items)。
作为核心创新,我们在图1的顶层将各种用户需求表示为电子商务概念(橙色框)。电子商务概念是简短、连贯且合理的短语,例如“户外烧烤”、“送爷爷的圣诞礼物”或“孩子保暖”,这些短语描述了特定的购物场景。此前,电子商务中的用户需求未被正式定义,通常使用层级类别或浏览节点来表示用户需求或兴趣[34]。然而,我们认为用户需求远比类别或浏览节点更广泛。设想一个用户计划进行户外烧烤,或者关心如何解决花园里的浣熊问题。他们面临一个场景或问题,但不知道哪些商品可以帮助解决。因此,在AliCoCo中,用户需求通过各种概念来表示,更多细节将在第5节中介绍。
为了进一步理解高层用户需求(即电子商务概念),我们需要一种基础语言来描述每个概念。例如,“户外烧烤”可以被表达为“<事件:烧烤> | <地点:户外> | <天气:晴朗> | …”。因此,我们构建了一个原始概念层,其中“原始”意味着该层中的概念短语相对简短且简单,例如“烧烤”、“户外”和“晴朗”(图1中的蓝色框)。相比之下,电子商务概念通常是复合短语。为了将所有原始概念归类到不同的类别中,我们还定义了一个电子商务分类体系(Taxonomy,分类学,分类法),其中具有不同粒度的类别通过isA关系形成了一个层级结构。例如,分类体系中有一条自上而下的路径:“类别->服装与配饰->服装->连衣裙”(图1中的紫色椭圆)。
我们还在分类体系上定义了一个模式,用于描述不同原始概念之间的关系。例如,在“类:类别-服装->裤子”和“类:时间->季节”之间定义了一个“适用时”(suitable_when)的关系,因此原始概念“棉裤”在“冬季”时是“适用时”(suitable_when)的。
在商品层,阿里巴巴平台上的数十亿商品同时与原始概念和电子商务概念相关联。原始概念更类似于商品的属性,例如颜色或尺寸。然而,电子商务概念与商品之间的关联表示某些商品在特定购物场景下是必需的或推荐的。如图1所示,例如烤架和黄油等商品与电子商务概念“户外烧烤”相关,但它们单独并不能与原始概念“户外”相关联。
总体而言,我们将用户需求表示为电子商务概念,然后采用带有分类体系的原始概念来在同一框架内描述和理解用户需求与商品。此外,电子商务概念还直接与商品相关联,从而形成了AliCoCo的完整结构。
3 分类体系
AliCoCo的分类体系是一个用于索引数百万(原始)概念的预定义类的层级结构。分类体系的一个快照如图3所示。多个领域专家付出了巨大努力以手动定义整个分类体系。在第一层级中定义了20个类别,其中以下类别是专为电子商务设计的,包括“类别”(Category)、“品牌”(Brand)、“颜色”(Color)、“设计”(Design)、“功能”(Function)、“材质”(Material)、“图案”(Pattern)、“形状”(Shape)、“气味”(Smell)、“味道”(Taste)和“风格”(Style)。其中,“类别”是最大的类别,拥有近800个叶节点,因为商品分类是几乎所有电子商务平台的骨干。其他类别如“时间”(Time)和“地点”(Location)则更接近通用领域。一个值得特别提及的类别是“知识产权”(IP,Intellectual Property),其中包含了数百万现实世界中的实体,如名人、电影和歌曲。这些实体在AliCoCo中也被视为原始概念。分类体系第一层级中定义的20个类别也被称为“领域”(domains)。
4 原始概念
具有分类体系的原始概念旨在准确且全面地描述电子商务中的每个商品和用户需求。它们是理解客户高层次购物需求的基础构建块。在本节中,我们主要介绍如何挖掘这些原始的原始概念(可以视为词汇),并将它们组织成层次结构。
4.1 词汇挖掘
在定义分类体系后,扩展原始概念规模有两种方法。第一种方法是通过本体匹配从多个来源整合现有知识。在实践中,我们主要采用基于规则的匹配算法,并结合人工手动对每个数据源的分类体系进行对齐。本文中不详细介绍具体细节。
第二种方法是从电子商务领域生成的大规模文本语料中挖掘新概念,这些语料包括搜索查询、商品标题、用户评论和购物指南。针对特定类别挖掘新概念可以被建模为序列标注任务,其中输入是一个词序列,输出是一个预定义标签的序列。然而,由于分类体系的层级结构过于复杂,无法直接用于这一任务,因此在实际操作中,我们仅使用第一层级的20个类别作为标签。
图4展示了BiLSTM-CRF模型的主要架构,这是目前在各种序列标注任务中表现最好的模型之一[14, 23]。BiLSTM-CRF模型由一个BiLSTM层和一个CRF层组成,其中BiLSTM(双向长短期记忆网络,Bidirectional-LSTM)能够使隐藏状态捕获单词的历史和未来上下文信息,而CRF(条件随机场,Conditional Random Field)则考虑了当前标签与相邻标签之间的相关性。
所有通过自动方法挖掘的“概念-类别”对随后都会经过人工检查以确保其正确性,具体细节将在第7.2节中介绍。一旦类别确定后,一个表面形式就会成为一个真正的原始概念,每个概念将被分配一个唯一的ID。同名但具有不同ID(意义)的原始概念可以共存,这使得AliCoCo具备对原始文本进行消歧的能力。
4.2 上位词发现
在挖掘了20个第一层级类别(领域)的原始概念后,我们进一步将每个原始概念细化分类到各领域内的细粒度类别。在每个领域中,这一任务可以被建模为上位词发现(Hypernym Discovery),即需要预测任意原始概念对之间的“下位词-上位词”关系。在实际操作中,我们结合了两种方法:一种是无监督的基于模式的方式,另一种是有监督的投影学习模型。
4.2.1 基于模式的方法
基于模式的上位词发现方法由Hearst [12] 首创,他定义了特定的文本模式,例如“Y such as X”,用于从语料库中挖掘下位词-上位词对。然而,这种方法因假设下位词-上位词对必须共同出现在这些模式中而导致召回率较低,而在匹配语料库中的模式时,这种假设通常并不成立。除了这些模式外,我们还采用了其他规则,利用中文的一些特殊语法特性直接发现上位词。例如,“XX裤”(XX Pants)必然是“裤”(Pants)这一类别的上位词,等等。
4.2.2 投影学习
投影学习的核心思想是学习一个函数,该函数以可能的下位词 p p p 和候选上位词 h h h 的词嵌入为输入,并输出 p p p 和 h h h 之间存在上位关系的可能性。为了发现给定下位词 p p p 的上位词,我们将该判别函数应用于所有候选上位词,并选择可能性最高的那些。对于一个候选对 ( p , h ) (p, h) (p,h),我们首先通过一个查找表获得它们的词嵌入 p p p 和 h h h,这些嵌入是在电子商务语料库上预训练的。然后,我们使用一个投影张量 T T T 来衡量是否存在上位关系。在 T T T 的第 k k k 层,我们通过以下公式计算分数 s k s_k sk:
s k = p T T k h s_k = p^T T_k h sk=pTTkh
其中, T k T_k Tk 是矩阵, k ∈ [ 1 , K ] k \in [1, K] k∈[1,K]。结合 K K K 个分数后,我们获得一个相似度向量 s s s。接着,经过一个带有 sigmoid 激活函数的全连接层,我们得到最终的概率 y y y:
y = σ ( W s + b ) y = \sigma(Ws + b) y=σ(Ws+b)
4.2.3 主动学习
由于为每个领域标注大量的下位词-上位词对显然无法扩展,我们采用了一种更有指导性的主动学习方法,通过选择需要标注的示例,使得在降低标注成本的同时,能够经济地学习一个准确的模型。其前提是,如果允许模型选择对其训练最有益的数据点,并从标注人员处查询其标注信息,模型的性能将会得到更好的提升。我们提出了一种不确定性和高置信度采样策略(Uncertainty and High Confidence Sampling, UCS)来选择样本,这些样本可以有效地提高模型的性能。迭代的主动学习算法如算法1所示。
如第3至7行所示,我们首先从未标注数据集
D
D
D 中随机选择一个包含
K
K
K 个样本的数据集
D
0
D_0
D0,并请求领域专家对
D
0
D_0
D0 中的样本进行标注。由此,我们获得了初始标注数据集
L
0
L_0
L0,同时从
D
D
D 中移除
D
0
D_0
D0。接着,我们使用
L
0
L_0
L0 训练投影学习模型
f
f
f,并在测试数据集
T
T
T 上测试其性能,性能指标记为
f
s
f_s
fs。最后,我们使用训练好的模型
f
^
\hat{f}
f^ 对未标注数据集
D
D
D 进行预测,并获得得分
S
0
S_0
S0。
接下来,我们通过迭代选择未标注样本进行标注,并利用它们来增强模型的性能。我们提出了一种主动学习采样策略,称为不确定性和高置信度采样(Uncertainty and High Confidence Sampling, UCS),其从两个因素出发选择未标注样本。第一个因素基于经典的不确定性采样(Uncertainty Sampling, US)[16]。如果某个样本的预测分数接近 0.5,这表明当前模型难以判断该样本的标签。如果专家对该样本进行标注,模型可以通过学习该样本来提升能力。在第9行中,我们通过公式
∣
S
i
−
0.5
∣
/
0.5
|S_i - 0.5| / 0.5
∣Si−0.5∣/0.5 来计算这一概率。此外,我们认为高置信度的样本在上位词发现任务中同样有帮助,因为模型可能会以高置信度将一些困难的负样本预测为正样本,特别是在遇到关系如 “same_as” 或 “similar” 时。通过人类标注发出的信号可以及时纠正这一问题。因此,我们在第10行中也选择了那些具有高分数的样本。另外,我们引入了参数
α
\alpha
α 来控制不同采样规模的权重。然后,我们获得了新的人工标注数据集,用于训练更优的模型。随着标注数据数量的增加,模型的性能也会随之提升。
最终,当模型的性能
f
s
f_s
fs 在
n
n
n 轮内不再提升时,此迭代过程将停止。在这一过程中,我们不仅获得了一个更好的模型,还有效地降低了人工标注的成本。
5 电子商务概念
在电子商务概念层,每个节点代表一个特定的购物场景,并且至少可以通过一个原始概念进行解释。在本节中,我们首先通过一些示例介绍高质量电子商务概念的标准,然后展示如何生成所有这些电子商务概念,并进一步提出一种算法,将电子商务概念与原始概念层进行关联。
5.1 标准
如第2节所述,在AliCoCo中,用户需求被概念化为电子商务概念,一个高质量的电子商务概念应满足以下标准:
-
电子商务相关性
应能让人轻松联想到电子商务平台中的某些商品,能够自然地表示一个特定的购物需求。例如,“蓝天”或“母鸡下蛋”不是电子商务概念,因为我们很难联想到相关商品。 -
连贯性
应该是一个连贯的短语。反例包括“礼物爷爷圣诞节”或“孩子保暖为”,而正确的表达应为“圣诞节给爷爷的礼物”或“孩子保暖”。 -
合理性
应符合常识知识,是一个合理的短语。例如,“性感婴儿裙”或“欧式韩式窗帘”是反例,因为人们不会用“性感”来描述婴儿的裙子,而窗帘不可能同时是欧式和韩式风格。 -
清晰性
电子商务概念的含义应清晰易懂。例如,“儿童和婴儿的辅食”是一个反例,因为其主体可能是较大年龄的儿童,也可能是新生儿,这会导致用户困惑。 -
正确性
不应有任何发音或语法错误。
5.2 生成
关于定义此类电子商务概念的研究尚属首次,针对从文本中挖掘此类短语的研究也寥寥无几。在实践中,我们提出了一个两阶段框架:首先,通过两种不同的方法生成大量可能的电子商务概念候选项;然后,提出一个二分类模型,用于识别符合我们标准的概念。
5.2.1 候选项生成
生成概念候选项有两种不同的方法:
-
从文本中挖掘原始概念
实际操作中,我们采用AutoPhrase[25] 从电子商务的大规模语料中挖掘可能的概念短语,这些语料包括搜索查询、商品标题、用户评论以及商家编写的购物指南。 -
使用现有的原始概念生成新候选项
例如,我们可以将“地点:室内”与“事件:烧烤”结合生成一个新概念“室内烧烤”。这种概念由于相对不常见,很难直接从文本中挖掘。然而,这是一个非常好的电子商务概念,因为AliCoCo的目标之一是尽可能覆盖更多的用户需求。 组合不同类别的原始概念的规则是通过一些自动挖掘然后手工调整的模式生成的。例如,我们可以通过模式“[类:功能] [类:类别] for [类:事件]”生成一个可能的概念“适合旅行的保暖帽”。表1展示了一些实践中使用的模式及其生成的电子商务概念,包括一些不符合标准的概念,这些将在后续步骤中被过滤掉。 此外,如果一个单一的原始概念符合所有五个标准,它也可以被视为一个电子商务概念。
5.2.2 分类
为了自动判断一个候选概念是否符合成为合格电子商务概念的标准,主要挑战在于测试其合理性(Plausibility)。对于其他四个标准,字符级和词级的语言模型以及一些启发式规则已经能够实现目标。然而,机器难以像人类那样掌握常识知识,例如“性感”一词不适合用来描述为儿童设计的衣服。此外,由于缺乏上下文信息,这一问题变得更加具有挑战性,因为我们的概念短语非常简短(平均2-3个单词)。
为了解决这个问题,我们提出了一种知识增强的深度分类模型,首先将概念中的每个词链接到一个外部知识库,然后从中引入丰富的语义信息。模型架构如图5所示,基于Wide & Deep [7] 框架。输入为一个候选概念 c c c,输出为一个评分,表示 c c c 作为优秀电子商务概念的概率。在本文中,我们将一个字符定义为一个中文或英文字符,而一个分词(或术语)是一组由多个字符组成的序列,例如“Nike”或“牛仔裤(jeans)”。在将输入概念送入模型之前,我们对所有概念进行了中文分词处理。
在Deep侧,主要有两个部分。首先,使用字符级BiLSTM通过简单的嵌入查找将候选概念
c
c
c的字符级嵌入序列
{
c
h
1
,
c
h
2
,
…
,
c
h
n
}
\{ch_1, ch_2, \ldots, ch_n\}
{ch1,ch2,…,chn}进行编码。经过均值池化后,得到概念嵌入
c
1
c_1
c1。另一个部分是知识增强模块。输入由以下三部分组成:1)预训练的词嵌入;2)通过查找表生成的词性(POS)标签嵌入;3)通过查找表生成的命名实体识别(NER)标签嵌入。将这三种嵌入拼接后,形成候选概念
c
c
c的输入嵌入序列
{
w
1
,
w
2
,
…
,
w
m
}
\{w_1, w_2, \ldots, w_m\}
{w1,w2,…,wm}(
m
<
n
m < n
m<n)。经过BiLSTM编码后,使用自注意力机制进一步编码概念内每个词的相互影响,得到序列输出
{
w
1
′
,
w
2
′
,
…
,
w
m
′
}
\{w'_1, w'_2, \ldots, w'_m\}
{w1′,w2′,…,wm′}。为了将外部知识引入模型以对短概念进行常识推理,将每个单词
w
w
w链接到其对应的维基百科条目(如果可能)。例如,“性感(sexy)”可以链接到中文维基百科或英文维基百科。然后,提取每个链接的维基百科条目的定义性描述(gloss)作为外部知识以增强概念词的特征表示。定义性描述是一个简短文档,用于简要介绍单词的含义。使用Doc2vec对每个提取的定义性描述进行编码,生成单词
w
i
w_i
wi的知识嵌入
k
i
k_i
ki。接着,通过自注意力层对知识序列进行编码,生成序列表示
{
k
1
′
,
k
2
′
,
…
,
k
m
′
}
\{k'_1, k'_2, \ldots, k'_m\}
{k1′,k2′,…,km′}。最后,将
w
i
′
w'_i
wi′与
k
i
′
k'_i
ki′拼接,并通过最大池化(max-pooling)获得候选概念的最终知识增强表示
c
2
c_2
c2。
在Wide侧,我们主要采用预先计算的特征,例如候选概念的字符数和单词数、通过专门在电子商务语料库上训练的BERT模型[10]计算的候选概念困惑度(perplexity),以及每个单词在电子商务场景中出现的受欢迎程度等其他特征。经过两层全连接层处理后,我们得到Wide特征表示
c
3
c_3
c3。
最终评分
y
^
c
\hat{y}_c
y^c 是通过将三个嵌入
c
1
c_1
c1、
c
2
c_2
c2 和
c
3
c_3
c3 拼接后输入到一个多层感知器(MLP)层计算得到的。我们使用逐点学习(point-wise learning)并采用负对数似然目标函数来学习模型参数:
L = − ∑ ( c ) ∈ D + log y ^ c + ∑ ( c ) ∈ D − log ( 1 − y ^ c ) L = - \sum_{(c) \in D^+} \log \hat{y}_c + \sum_{(c) \in D^-} \log(1 - \hat{y}_c) L=−(c)∈D+∑logy^c+(c)∈D−∑log(1−y^c)
其中,
D
+
D^+
D+ 和
D
−
D^-
D− 分别表示好的和坏的电子商务概念。
我们期望该模型能够过滤掉第一步生成的大部分不合格候选概念。为了严格控制质量,我们会随机抽取通过模型检查的每一批输出中的一小部分样本,交由领域专家进行人工标注。只有当准确率达到某个阈值时,整批概念才会被添加到AliCoCo中。此外,这些标注样本将被添加到训练数据中,以迭代提升模型的性能。
5.3 理解
对于那些直接从文本语料中挖掘出的高质量电子商务概念,它们是独立的短语,等待被整合到AliCoCo中。为了更好地理解(或解释)这些用户需求(即电子商务概念),将它们与原始概念层关联是一个关键步骤。我们将这一主要任务称为“电子商务概念标注”。回顾第2节的示例,对于短语“户外烧烤”,我们需要推断出“户外”是一个“地点”(Location),“烧烤”是一个“事件”(Event)。然而,“烧烤”一词在原始概念层中也可能是一个电影,因此可能被归类为“知识产权”(IP)。我们将这一任务建模为一个短文本命名实体识别(NER)问题。相比于普通NER任务,这一任务更加具有挑战性,因为概念短语非常简短(平均2-3个词),缺乏上下文信息,使得在不同类别之间进行消歧变得更加困难。
为了解决上述挑战,我们提出了一种带有模糊条件随机场(fuzzy CRF)的文本增强深度NER模型,其架构如图6所示。该任务的输入是经过中文分词后的概念单词序列
{
w
1
,
w
2
,
…
,
w
m
}
\{w_1, w_2, \ldots, w_m\}
{w1,w2,…,wm},输出是相同长度的序列
{
y
1
,
y
2
,
…
,
y
m
}
\{y_1, y_2, \ldots, y_m\}
{y1,y2,…,ym},表示每个词的类别标签,采用“内/外/开始”(In/Out/Begin,I/O/B)方案。该模型由两个主要组件组成:文本增强的概念编码器(text-augmented concept encoder),模糊条件随机场层(fuzzy CRF layer)。
5.3.1 文本增强概念编码器
为了在表示层利用更多信息特征,我们使用词级特征、字符级特征以及位置特征。我们随机初始化一个查找表,为每个字符获取嵌入。令 C C C 为字符的词汇表,一个单词 w i w_i wi 可以表示为字符向量序列 { c i 1 , c i 2 , … , c i t } \{c_i^1, c_i^2, \ldots, c_i^t\} {ci1,ci2,…,cit},其中 c i j c_i^j cij 是单词 w i w_i wi 中第 j j j 个字符的向量, t t t 为单词长度。我们采用卷积神经网络(CNN)架构提取每个单词 w i w_i wi 的字符级特征 c i c_i ci。具体来说,我们使用一个窗口大小为 k k k 的卷积层,结合每个字符及其邻近字符的信息。随后应用最大池化操作,输出最终的字符表示,如下所示:
c
i
j
=
CNN
(
[
c
i
j
−
k
/
2
,
…
,
c
i
j
,
…
,
c
i
j
+
k
/
2
]
)
c_i^j = \text{CNN}([c_i^{j-k/2}, \ldots, c_i^j, \ldots, c_i^{j+k/2}])
cij=CNN([cij−k/2,…,cij,…,cij+k/2])
c
i
=
MaxPooling
(
[
c
i
0
,
…
,
c
i
j
,
…
]
)
c_i = \text{MaxPooling}([c_i^0, \ldots, c_i^j, \ldots])
ci=MaxPooling([ci0,…,cij,…])
为捕获词级特征,我们使用GloVe [22] 的预训练词嵌入将一个单词映射为实值向量 x i x_i xi,作为初始化的词级特征,并在训练期间进行微调。此外,我们计算词性(POS)标注特征 p i p_i pi。最终,我们通过拼接三种嵌入来获得单词表示 w i w_i wi:
w i = [ x i ; c i ; p i ] w_i = [x_i ; c_i ; p_i] wi=[xi;ci;pi]
类似于上一任务中介绍的分类模型,我们将单词表示序列输入BiLSTM层,得到隐藏嵌入 { h 1 , h 2 , … , h m } \{h_1, h_2, \ldots, h_m\} {h1,h2,…,hm}。 为了用更多的文本信息增强模型,我们构建了一个文本嵌入矩阵 T M TM TM,通过将每个单词映射回大规模文本语料库提取其上下文,并通过Doc2vec对其进行编码。然后,我们在 T M TM TM 中查找每个单词 w i w_i wi,以获取文本增强嵌入 t m i tm_i tmi。我们将 h i h_i hi 和 t m i tm_i tmi 拼接,并使用自注意力层(Self-Attention)根据上下文单词的增强文本嵌入调整每个单词的表示,从而获得更好的特征表示:
h i ′ = SelfAtt ( [ h i ; t m i ] ) h'_i = \text{SelfAtt}([h_i ; tm_i]) hi′=SelfAtt([hi;tmi])
5.3.2 模糊CRF层
在概念编码模块之后,我们将嵌入输入到一个CRF层。不同于普通的CRF,我们使用模糊CRF(fuzzy CRF)[26] 来更好地处理消歧问题,因为每个单词的有效类别标签并非唯一,这种现象在本任务中更为严重,因为我们的概念短语非常短。图7展示了一个示例,在电子商务概念“乡村半身裙”中,单词“乡村”可以链接到原始概念“空间: 乡村(Location: Village)”或“风格: 乡村(Style: Village)”,这两种解释都是合理的。因此,我们调整了最终的概率计算公式为:
L ( y ∣ X ) = ∑ y ^ ∈ Y possible e s ( X , y ^ ) ∑ y ^ ∈ Y X e s ( X , y ^ ) L(y|X) = \frac{\sum_{\hat{y} \in Y_{\text{possible}}} e^{s(X, \hat{y})}}{\sum_{\hat{y} \in Y_{X}} e^{s(X, \hat{y})}} L(y∣X)=∑y^∈YXes(X,y^)∑y^∈Ypossiblees(X,y^)
其中, Y X Y_X YX 表示序列 X X X 的所有可能标签序列,而 Y possible Y_{\text{possible}} Ypossible 包含所有有效的标签序列。
6 商品关联
商品是任何电子商务知识图谱中最重要的节点,因为电子商务平台的最终目标是确保客户能够轻松找到满足其需求的商品。目前,我们已经将用户需求概念化为电子商务概念,并使用结构化的原始概念对其进行解释。最后一步是将阿里巴巴上的数十亿商品与所有概念(包括原始概念和电子商务概念)进行关联,从而构建完整的AliCoCo。
由于原始概念类似于单值标签和属性,其与商品的映射相对直接。因此,在本节中,我们主要介绍将商品与电子商务概念关联的方法,后者通常代表特定的购物场景,并携带更复杂的语义信息。此外,电子商务概念与某些商品之间的关联无法直接从对应的原始概念及其相关商品之间的关联中推导出来,这种现象被称为“语义漂移”(semantic drift)。例如,当我们想要举办“户外烧烤”时,木炭是必需的,但它与原始概念“地点:户外”(Location: Outdoor)无关。
我们将此任务建模为文本之间的语义匹配问题 [13, 21, 31],因为在当前阶段我们仅使用商品的文本特征。将电子商务概念与相关商品关联的主要挑战在于概念的长度过短,导致可用信息有限。出于同样的原因,一些不太重要的词可能会误导匹配过程,带来较高风险。为了解决这一问题,我们提出了一种知识感知的深度语义匹配模型,其架构如图8所示。
输入包括一个概念单词序列和候选商品标题中的单词序列。我们通过拼接两段序列的预训练词嵌入、词性(POS)标签嵌入和命名实体识别(NER)标签嵌入(类似于第5.3节)来获取输入嵌入:
{
w
1
,
w
2
,
…
,
w
m
}
\{w_1, w_2, \ldots, w_m\}
{w1,w2,…,wm} 和
{
t
1
,
t
2
,
…
,
t
l
}
\{t_1, t_2, \ldots, t_l\}
{t1,t2,…,tl}。随后,我们分别采用宽卷积神经网络(wide CNNs)并设置窗口大小为
k
k
k 来对概念和商品进行编码:
模型的计算过程如下:
w
i
′
=
CNN
(
[
w
i
−
k
/
2
,
…
,
w
i
,
…
,
w
i
+
k
/
2
]
)
w'_i = \text{CNN}([w_{i-k/2}, \ldots, w_i, \ldots, w_{i+k/2}])
wi′=CNN([wi−k/2,…,wi,…,wi+k/2])
t
i
′
=
CNN
(
[
t
i
−
k
/
2
,
…
,
t
i
,
…
,
t
i
+
k
/
2
]
)
t'_i = \text{CNN}([t_{i-k/2}, \ldots, t_i, \ldots, t_{i+k/2}])
ti′=CNN([ti−k/2,…,ti,…,ti+k/2])
直觉上,概念中的不同单词在匹配到项目时应该共享不同的权重,反之亦然。因此,我们在模型中应用了注意机制[3,19]。注意力矩阵是用来模拟双向互动的同时。注意力矩阵的值定义如下:
att
i
,
j
=
v
T
tanh
(
W
1
w
i
′
+
W
2
t
j
′
)
\text{att}_{i,j} = v^T \tanh(W_1 w'_i + W_2 t'_j)
atti,j=vTtanh(W1wi′+W2tj′)
其中
i
∈
[
1
,
m
]
i \in [1, m]
i∈[1,m] 和
j
∈
[
1
,
l
]
j \in [1, l]
j∈[1,l],
v
,
W
1
,
W
2
v, W_1, W_2
v,W1,W2 是模型参数。
分别计算每个概念词
w
i
w_i
wi 和标题词
t
i
t_i
ti 的权重:
α
w
i
=
exp
(
∑
j
att
i
,
j
)
∑
i
exp
(
∑
j
att
i
,
j
)
\alpha_{w_i} = \frac{\exp\left(\sum_j \text{att}_{i,j}\right)}{\sum_i \exp\left(\sum_j \text{att}_{i,j}\right)}
αwi=∑iexp(∑jatti,j)exp(∑jatti,j)
α
t
j
=
exp
(
∑
i
att
i
,
j
)
∑
j
exp
(
∑
i
att
i
,
j
)
\alpha_{t_j} = \frac{\exp\left(\sum_i \text{att}_{i,j}\right)}{\sum_j \exp\left(\sum_i \text{att}_{i,j}\right)}
αtj=∑jexp(∑iatti,j)exp(∑iatti,j)
然后,我们得到概念嵌入 c c c为:
c
=
∑
i
α
w
i
w
i
′
c = \sum_i \alpha_{w_i} w'_i
c=i∑αwiwi′
和商品嵌入
i
i
i类似
为了引入更多的信息知识来帮助语义匹配,我们在第5.2.2节中获得了相同的知识嵌入序列:
k
i
=
Doc2vec
(
Gloss
(
w
i
)
)
k_i = \text{Doc2vec}(\text{Gloss}(w_i))
ki=Doc2vec(Gloss(wi))
此外,我们获取与当前电子商务概念关联的第
j
j
j 个原始概念的类别标签嵌入
c
l
s
j
cls_j
clsj。因此,在概念端存在以下三种序列:
{
k
w
i
}
=
{
w
1
,
w
2
,
…
,
w
m
,
k
1
,
k
2
,
…
,
k
m
,
c
l
s
1
,
c
l
s
2
,
…
,
c
l
s
m
′
}
\{kw_i\} = \{w_1, w_2, \ldots, w_m, k_1, k_2, \ldots, k_m, cls_1, cls_2, \ldots, cls_{m'}\}
{kwi}={w1,w2,…,wm,k1,k2,…,km,cls1,cls2,…,clsm′}
其中,
m
′
m'
m′ 表示原始概念的数量。在商品端,我们直接使用单词嵌入序列
{
t
i
}
=
{
t
1
,
t
2
,
…
,
t
l
}
\{t_i\} = \{t_1, t_2, \ldots, t_l\}
{ti}={t1,t2,…,tl}。随后,我们采用匹配金字塔(Matching Pyramid)[21] 的思想,第
k
k
k 层匹配矩阵的值定义如下:
match
i
,
j
k
=
k
w
i
T
W
k
t
j
\text{match}^k_{i,j} = k_{w_i}^T W_k t_j
matchi,jk=kwiTWktj
其中
i
∈
[
1
,
2
m
+
m
′
]
i \in [1, 2m + m']
i∈[1,2m+m′] 和
j
∈
[
1
,
l
]
j \in [1, l]
j∈[1,l]。每层的匹配矩阵输入两层CNN和最大池化操作,得到匹配嵌入
c
i
k
c^k_i
cik。最终的匹配嵌入:
c
i
=
MLP
(
[
…
;
c
i
k
;
…
]
)
ci = \text{MLP}([\ldots; ci^k; \ldots])
ci=MLP([…;cik;…])
测量概率的最终分数计算如下:
score
=
MLP
(
[
c
;
i
;
c
i
]
)
\text{score} = \text{MLP}([c; i; c_i])
score=MLP([c;i;ci])
7 评估
在本节中,我们首先提供AliCoCo的统计概览。接下来,我们对AliCoCo构建过程中涉及的五个主要技术模块进行实验评估。
7.1 总体评估
表2显示了AliCoCo的统计数据。截至撰写本文时,AliCoCo包含 2,853,276 个原始概念 和 5,262,063 个电子商务概念。AliCoCo中共有数千亿条关系,包括原始概念层内类别的 131,968 条 isA 关系 和电子商务概念层的 22,287,167 条 isA 关系。在阿里巴巴的超过 30 亿商品 中,98% 已经与AliCoCo建立关联。每个商品平均关联 14 个原始概念 和 135 个电子商务概念。每个电子商务概念平均关联 74,420 件商品。电子商务概念层与原始概念层之间的关系数量为 33,495,112 条。
AliCoCo 的构建采用了半自动化方式。对于通过模型挖掘出的节点和关系,我们会随机抽取部分数据,并让人工标注人员进行标注。只有当准确率达到某一阈值时,挖掘的数据才会被添加到 AliCoCo 中,以确保数据质量。此外,对于那些动态边(与商品关联的边),我们会定期监控数据质量。
为了评估AliCoCo对客户实际购物需求的覆盖率,我们随机抽取了2000条搜索查询,并手动将其重写为连贯的词序列。随后,我们在AliCoCo中搜索这些词以计算覆盖率。我们每天重复这一过程,以便及时检测用户需求的新趋势。在连续30天内,AliCoCo平均覆盖超过 75% 的购物需求,而第1节提到的前一个本体的覆盖率仅为 30%。
7.2 原始概念挖掘
在定义分类体系中的20个不同领域后,我们通过引入来自多个现有结构化或半结构化通用领域知识库的知识,迅速扩大了原始概念的规模。在此过程中,地点(Location)、组织(Organization) 和 知识产权(Intellectual Property) 等领域的词汇规模能够快速扩大。对于其他专用于电子商务的领域,我们主要利用现有的电子商务半结构化数据(CPV),因为大多数属性(Properties)可以匹配到我们的领域,例如品牌(Brand)、颜色(Color) 和 材质(Material) 等。
在基于规则的对齐和清洗后,从多个来源提取了大约 200 万个原始概念。我们采用远程监督(distant supervision)的思想生成大量训练样本,以挖掘新概念。通过一种动态规划的最大匹配算法,我们在文本语料中匹配单词,并使用现有的原始概念根据IOB方案为每个单词分配领域标签。我们过滤掉匹配结果模糊的句子,仅保留那些能够完全匹配(所有单词只能被唯一标签标注)的句子作为训练数据。通过这种方式生成了约 600 万条训练数据。在每次处理 500 万条句子 的迭代中,我们的挖掘模型平均能够发现约 6.4 万个新的候选概念。经过众包服务人工检查正确性后,每轮大约有 1万 个正确概念被加入词汇表。挖掘过程持续运行,截至撰写本文时,来自20个领域的原始概念总数为 2,758,464 个。
7.3 上位词发现
为了将所有原始概念组织成一个细粒度的分类体系,我们提出了一个主动学习框架,用于迭代发现不同原始概念之间的 isA 关系。为验证我们框架的优越性,我们在分类体系构建后收集的真实数据集上进行了多项实验。我们随机抽取了 3,000 个“类别”类(Category) 中至少有一个上位词的原始概念,并检索到 7,060 个下位词-上位词对 作为正样本。随后,将正样本划分为训练集、验证集和测试集(7:2:1)。上位词发现的搜索空间实际上是整个词汇表,因此负样本的数量和质量在此任务中非常重要。训练集和验证集的负样本是通过从正样本对中将每对的上位词替换为“类别”(Category)类的随机原始概念自动生成的。在接下来的实验中,我们使用以下评估指标:
- MAP(平均精确度均值,Mean Average Precision)
- MRR(平均倒数排名,Mean Reciprocal Rank)
- P@1(排名第一的准确率,Precision at Rank 1)
表3展示了在主动学习框架中不同采样策略的实验结果,其中 Random 表示直接使用整个候选池进行训练,而不使用主动学习。我们在每次迭代中将选择的数据量
K
K
K 设置为 25,000,如第4.2节所述。当四种主动学习采样策略都达到了相似的 MAP 分数时,可以发现,所有主动学习采样策略都能有效减少标注数据量,从而节省大量人工成本。其中,UCS(不确定性和高置信度采样)是最经济的采样策略,仅需要 325,000 个样本,与随机采样策略相比减少了 35% 的样本量。这表明,在上位词发现任务中,高置信度的负样本同样至关重要。
图9说明
- 左图:在上位词发现任务中,不同负样本数量对测试集性能的影响。
- 右图:主动学习中不同采样策略的最佳性能表现。
在图9(右)中,我们展示了整个训练过程中每种采样策略的最佳性能结果。UCS(不确定性和高置信度采样)的 MAP 表现优于其他三种策略,并达到了最高的 48.82%。这表明,在模型训练过程中选择最有价值的样本至关重要。
我们从候选集随机抽取了大量电子商务概念,并邀请人工标注人员对其进行标注。该标注任务持续了数月,直到我们获得足够的训练样本。最终的数据集包含 70,000 条样本(正负样本比例为 1:1)。随后,我们将数据集按照 7:1:2 的比例划分为训练集、验证集和测试集。
消融测试结果 如表4所示。
- 与基线模型(基于BiLSTM并结合自注意力机制的架构)相比,加入宽特征(如概念的不同句法特征)使精确度绝对值提高了 3%。
- 将输入嵌入替换为BERT的输出后,性能进一步提高了 1.5%,显示出BERT编码丰富语义信息的优势。
- 在模型中引入外部知识后,最终性能达到 0.935,相较基线模型实现了 7.5% 的相对提升。
这些结果表明,利用外部知识能够有效增强对短概念的常识推理能力。
7.5 电子商务概念标注
为了将直接从文本语料中挖掘的电子商务概念与原始概念层关联,我们提出了一个带有模糊CRF的文本增强NER模型(见第5.3节),用于将电子商务概念与其相关的原始概念进行链接。我们随机抽取了 7,200 个电子商务概念,并邀请人工标注人员为每个电子商务概念中的原始概念标注正确的类别标签。为了扩大训练数据规模,我们使用第7.2节提到的远程监督方法,自动生成了 24,000 对 数据。每对数据包含一个复合概念及其对应的领域标签序列。我们将 7,200 对人工标注数据 划分为 4,800/1,400/1,000 用于训练、验证和测试。将 24,000 对远程监督数据 添加到训练集中,以帮助学习一个更加稳健的模型。
实验结果 如表5所示:
- 与基线模型(基于Bi-LSTM和CRF的基本序列标注模型)相比,加入模糊CRF后,F1得分提升了 1.8%,表明CRF层中的多路径优化确实对消歧任务有帮助。
- 引入外部知识嵌入以进一步增强文本信息后,模型的F1得分进一步提高至 0.8772。
这表明,引入外部知识对处理上下文信息有限的短文本任务有显著益处。
7.6 概念与商品的语义匹配
在本小节中,我们展示了用于将电子商务概念与阿里巴巴数十亿商品进行关联的语义匹配模型的优越性能。我们创建了一个包含 4.5 亿条样本 的数据集,其中 2.5 亿条为正样本,2 亿条为负样本。正样本来自强匹配规则和在淘宝应用中运行的用户点击日志(见第1节)。负样本主要通过随机采样生成。在测试集中,我们随机抽取了 400 个电子商务概念,并基于一组候选对让人工标注人员进行标注。最终,我们收集了 20 万条正样本 和 20 万条负样本 作为测试集。
表6显示了实验结果,其中F1分数是通过设置阈值为0.5计算得出的。我们的知识感知深度语义匹配模型在 AUC(曲线下面积)、F1 和 Precision at 10(前10个结果的准确率)方面均优于所有基线模型,显示了外部知识带来的优势。为了进一步探讨知识的帮助,我们分析了一些具体案例。在未注入知识的基础模型中,电子商务概念“中秋节礼物(Gifts for Mid-Autumn Festival)”与商品“老式大月饼共800g云南特产荞三香大荞饼荞酥散装多口味(Old big moon cakes 800g Yunnan…)”的匹配分数不足以将两者关联起来,因为两端的文本内容不够相似。当我们为“中秋节(Mid-Autumn Festival)”引入外部知识后,例如“中秋节自古便有赏月、吃月饼、赏桂花、饮桂花酒等习俗。(It is a tradition for people to eat moon cakes in Mid-Autumn…)”,模型中的注意力分数显著提升,“中秋节(Mid-Autumn Festival)”与“月饼(moon cakes)”的关联性得以增强,从而弥合了这一概念与商品之间的语义鸿沟。
8 应用
AliCoCo 已经在阿里巴巴生态系统中支持了一系列下游应用,特别是在搜索和推荐这两个电子商务中的核心应用中。在本节中,我们介绍了一些已经成功的案例、目前正在尝试的应用,以及未来计划尝试的一些方向。
8.1 电子商务搜索
8.1.1 搜索相关性
相关性是搜索引擎的核心问题之一,其主要挑战之一是用户查询与文档之间的词汇差距。在电子商务中,这一问题更加严重,因为商品标题中的语言通常更为专业。语义匹配是弥合这一差距、提高相关性的关键技术,其中 isA 关系 在语义匹配中尤为重要。例如,如果用户搜索“上衣(top)”,搜索引擎可能会将标题中仅包含“夹克(jacket)”但没有“上衣(top)”的商品归为无关项。但如果我们拥有“夹克是一种上衣(jacket is a kind of top)”的先验知识,这一问题就可以成功解决。与之前的分类体系相比(其中仅包含 15,000 个不同类别词汇 和 10,000 条 isA 关系),AliCoCo 包含的类别词汇和 isA 关系数量是其 10 倍。离线实验显示,我们的数据使语义匹配模型的AUC性能提升了 1%;在线测试显示,不相关的错误案例数量减少了 4%,表明用户满意度得到了提升。
8.1.2 语义搜索与问答
如图2(a)所示,基于AliCoCo支持的语义搜索正在开发中。类似于在Google中搜索“中国(China)”后可以在页面上获得包含几乎所有重要信息的知识卡片,我们正在设计一种更结构化的方式,当客户搜索“烘焙”时,可以展示“烘焙所需工具”的知识。另一方面,这种应用需要高精度和高召回率的关系信息,而当前阶段的AliCoCo在关系覆盖上仍然较为稀疏。问答功能是展示搜索引擎真正智能化的一种方式。在电子商务中,客户长期以来习惯于基于关键词的搜索。然而,在某些情况下,我们可能希望对电子商务搜索引擎提问,例如“我需要准备什么来举办下周的烧烤?”。我们相信,通过持续努力整合更多知识(尤其是常识性知识),AliCoCo能够为实现这一目标提供丰富的想象空间。
图2:用户需求驱动的电子商务三个实际案例
- (a):查询触发语义搜索中的概念卡片。
- (b):将概念直接显示为卡片形式,附带一组相关商品。
- (c):在搜索和推荐中,概念充当解释理由。
8.2 电子商务推荐
8.2.1 认知推荐
如第1节所述,电子商务概念的一个自然应用是直接将其与关联商品一起推荐给用户。在图2(b)的快照中,概念“烘焙工具(Tools for Baking)”以卡片形式显示,并附有一个代表性商品的图片。当用户点击该卡片时,会跳转到一个页面,显示如打蛋器、过滤器等相关商品。我们在先前的研究 [18] 中进行了全面的离线和在线实验。该功能已上线超过一年,表现出高点击率和令人满意的 GMV(商品交易总额,Gross Merchandise Value)。根据对在线用户进行的调查,这种推荐的新形式带来了更多新颖性,进一步提升了用户满意度。该应用完全依赖于AliCoCo的完整功能性,充分展示了其巨大价值和潜力。
8.2.2 推荐理由
电子商务概念具有清晰简洁的优势,使其成为向客户推荐商品时展示推荐理由的理想选择。此想法正在撰写本文时进行实验。
9 相关工作
大量人力被投入到开放领域知识图谱(KGs)的构建中,如Freebase [5] 和 DBpedia [2],它们通常通过明确定义的类型系统描述具体事实,而不是通过自然语言文本中的不一致概念进行描述。Probase [30] 构建了一个大规模的概念概率分类体系,使用 isA 关系组织一般概念。与AliCoCo不同,Probase 中的概念没有类别,因此语义异构性是隐式处理的。从这个角度看,AliCoCo 的结构实际上更类似于具有类型系统的知识图谱,如Freebase。ConceptNet [27] 通过识别概念之间的非正式关系试图包含常识性知识,这些概念可能是任何人类知识的概念化,例如出现在自由文本中的“游戏的目的(games with a purpose)”。受到开放领域知识图谱构建的启发,不同种类的电子商务知识图谱被构建,用于描述用户、商品及商品属性之间的关系 [1, 6]。一个著名的例子是全球另一大电子商务巨头亚马逊的“商品知识图谱”(Product Knowledge Graph, PG)。与AliCoCo的主要区别在于,它们不像我们一样专注于用户需求。在AliCoCo中,我们正式定义了用户需求,并引入了一种新的节点类型——电子商务概念,明确表示各种购物需求,并进一步将其链接到原始概念层以实现语义理解。尽管未深入探讨,但AliCoCo可以通过原始概念层(例如IP、组织等)像PG一样与开放领域知识图谱相连接,使其功能更强大。
10 结论
本文指出,在大多数电子商务平台中,用户需求与现有本体之间存在巨大的语义鸿沟。这一鸿沟不可避免地导致电子商务搜索引擎和推荐系统难以准确理解用户需求,而满足用户需求正是电子商务平台的最终目标。为了解决这一问题,我们介绍了一种专为电子商务设计的认知概念网“AliCoCo”,该方法已在阿里巴巴中实践,通过将用户需求概念化为各种购物场景(即“电子商务概念”)来弥合这一语义鸿沟。我们详细描述了AliCoCo的结构,并介绍了其构建过程及丰富的评估结果。AliCoCo已经为阿里巴巴的一系列下游电子商务应用带来了显著益处。面向后续版本,我们的未来工作包括:
- 完善AliCoCo:挖掘更多未被发现的关系,尤其是包含常识性知识的关系,例如“男孩T恤”暗示“时间”应该是“夏天”,即使概念中未明确提到“夏天”。
- 引入关系概率:在概念与商品之间的关系中引入概率模型。
- 扩展应用场景:不仅在电子商务领域内,也在更广泛的领域中带来更多应用价值。