科研学习|论文解读——基于旅游知识图谱的游客偏好挖掘和决策支持
原文链接
摘要
目前,旅游管理研究的重点是通过对异构用户生成的内容进行广泛分析,来理解旅游偏好的波动,制定有针对性的发展策略。然而,鉴于在线景点评论涉及过多的混合和无形维度,广泛使用的无监督文本挖掘可能是不完整的或不准确的。此外,现有文献通常局限于几个旅游目的地和起源地的某些类型的景点,很难保证具有全面的洞察力。为了克服这些局限性,本研究提出了一种新的知识图谱驱动框架,该框架涉及旅游知识图谱(TKG)的系统构建和深入的研究与推理。遵循领域知识本体,从多源文本语料库中提取出11296716个多方面知识的结构化三联模型,提高了43.64%~50.65%的准确率,从中国340个旅游地中抽取了11174034名游客和20481个景点。利用TKG可以建立一个综合的决策支持系统,它分为符号查询和分布式推理两种不同的知识应用模式。在TKG上通过SPARQL查询实现多重时空分析,可以逐步发现旅游偏好、因果解释的分布规律及其对旅游地发展的影响。通过TKG注入丰富的上下文知识来细化对象的分布表示,可以显著增强下游推理任务,如旅游需求预测和旅游竞争情报。
一、引言
对旅游偏好的清晰把握一直是旅游研究者和实践者关注的焦点。洞察游客的行为偏好有助于旅游营销组织完善现有景点,规划新景点,并提出有效的营销策略。旅游从业者可以进一步识别游客选择行为的潜在决定因素,并及时预测对景点的需求,或细分旅游市场,定制与旅游者特征相符的个性化套餐。然而,全面了解游客对景点的偏好一直是一个挑战,因为景点属于体验产品,具有有形、认知和情感特征维度的复杂多变的耦合。
分析旅游偏好和制定有针对性的策略通常利用人工调查的离散选择实验,如问卷或访谈。该方法适用于测量特定旅游场景的反馈或预测一个新产品的支付意愿,并测试潜在因素的假设。然而,在进行调查时,无可避免地存在抽样偏差和时间限制的挑战,这可能会限制研究范围和结果的概化性。幸运的是,随着信息和通信技术的快速发展,尤其有影响力的社交媒体平台,海量用户生成的内容被记录、存储和积累,形成了一种重要的大数据类型。这些内容公开、易收集、低成本、自发、充满热情和洞察力。在众多类型的UGC中,在线评论可以提供关于游客行为偏好的大量信息。因此,它被称为一个很有前途的替代数据源,以克服人工调查的局限性。在线评论的相关分析已成功地应用于各种旅游问题,如服务性能改进,旅游地形象感知、旅行日记分析、差异化营销,以及旅游需求预测。
尽管在文献中对在线评论的文本挖掘做出了许多努力,但在深入了解复杂的旅游者偏好以支持旅游规划决策方面仍然存在3个重要的研究空白。
1. 在线评论分析主要应用于酒店、餐厅以及航空部门,其目的是确定旅游体验的感知维度和满意度。然而,景点作为旅游地的关键吸引力,直到最近才通过在线评论挖掘进行了少量研究。2. 在方法论方面,流行的无监督文本挖掘算法已广泛应用于当前的酒店和餐饮研究,但在从景点评论中提取知识方面可能存在问题,甚至无效。不像酒店和餐厅有几个明确的属性,景点评论内容的主题异质性要广泛得多,以不同的动机和活动为特征,并结合了众多无形的特征。可以说,这些数据的这种特性可能会导致提取的主题过多、可分性差、歧义增加,从而降低主题识别的准确性。3. 大多数研究在描述性统计分析中停滞不前,比如局限于特定旅游者群体在特定时段对特定旅游地内少数类型旅游产品的偏好模式。因此,基于在线评论,对景点特征的旅游偏好的一般时空规律的见解很少,更不用说潜在的因果解释和对旅游地发展的潜在影响了。这是由于缺乏对大地理范围内的多个旅游地及起源地进行广泛的比较分析。因此,仍然需要解决一些问题,例如在有关景点的在线评论中充分发挥文本挖掘技术的潜力,以实现系统和全面地理解决策支持的旅游偏好。
为了填补上述空白,本研究提出了一个新的决策支持框架,系统地研究游客的偏好,基于知识图(KG)以及相应的查询技术和推理模型。KG作为一个基于图形的数据模型,通过充分的事实知识三元组,其节点表示感兴趣的实体,其边表示这些实体之间潜在的不同关系。KG的核心能力3点特征为旅游业的UGC挖掘和相关决策支持带来了前景。
1. 整合多源异构旅游数据 :高度可扩展的知识表示结构三元组能够自然融合多模态、碎片化的旅游数据,实现不同类型信息的互补、粒度和来源。这种能力有两个明显的好处。首先,KG可以涵盖旅游场景中的各种实体,并对实体之间丰富的多种关系、行为互动和异质属性进行建模,这有利于对旅游现象从规律到因果解释再到潜在影响进行全面系统的探索。第二,多个信息源之间的重叠信息可以支持对发现的规律进行交叉验证,进一步增强结论的概括性。2. 准确的旅游知识提取和完整的旅游场景建模 :随着深度的日益成熟自然语言处理技术,相应的KG方法可以充分填补传统文本挖掘的上述空白,大大提高旅游者行为偏好知识提取的准确性和完整性,从而形成一个结构完整的旅游领域知识体系。3. 面向决策支持的海量旅游知识的有效部署和推理 :KG的应用可以分为两种方式,即符号查询和分布式推理。凭借高性能的图形DBMS,KG可以有效地查询,以可视化的交互方式提供多个时空分析,全面探索游客的行为模式和偏好分布。此外,前沿的分布式知识计算和推理模型(也称为KGL/KGE)可以被引入,以实现和增强各种下游任务丰富的语义知识,如旅游需求预测、竞争情报等。与3个方面的利益相对应,KG的关键操作也可以分为3个过程:知识组织、获取和部署。知识组织是设计KG的本体,它形式化地表示领域专家的知识。知识获取是实例化根据本体从语料库中提取知识库中的信息。知识部署是利用KG实现多个下游决策支持任务的知识驱动解决方案。
本研究创新性地构建了一个以旅游为导向的KG(TKG),以实现一种新的知识驱动范式,全面了解中国各地的游客偏好和有针对性的决策支持。该框架分3个阶段进行。
1. 收集了大量的多源在线文本。该语料库包含2014年至2019年的11,049,090条评论,由来自中国340个城市的游客发布,涵盖了中国340个旅游地的20,481个景点。2. 最先进的预训练语言模型,增强的语言表示与信息实体(ERNIE),已被微调通过迁移学习严格按照精心设计的本体,从大规模在线语料库中提取更精确、更完整的景点语义知识(超越了常见的自动主题建模)。3. 基于构建的旅游业综合决策支持系统模型,可以建立一个基于知识效用的旅游业综合决策支持系统,具体分为基于知识效用的符号查询和分布式推理两种范式。多个时空和统计分析通过将它们转换为图形-数据库管理系统(Graph-DBMS)中的符号SPARQL查询来有效地进行,形成了一个渐进的调查系统,从检测一般规律到机制解释,进一步深入到对旅游地发展的最终影响。知识效用的另一种范式求助于尖端的KG嵌入(KGE)和图神经网络(GNN)模型将丰富的语义/地理知识编码成低维分布式表示,从而显著增强了多个下游决策支持任务,如旅游需求预测和旅游竞争情报。
这项研究的贡献有3个方面:
1. 与旅游管理中最常用的主题建模相比,基于预训练语言模型的迁移学习方法在准确性和全面性方面,可以显著提高旅游消费的知识获取。此外,对不同文本挖掘方法的验证和比较也增强了对未来旅游研究的适用性和可靠性的方法意识。2. 构建的TKG覆盖区域多、时间长、游客群体多,消除了个案描述性研究的局限性。通过对旅游偏好的深入研究,从规律到机制再到效果的过程可以解剖出旅游市场的全貌。3. TKG的分布式知识推理能力,可以大大促进多个复杂下游任务的解决,如需求预测和竞争情报,从而有助于制定适当的政策,开发旅游业内的多种模式。
本研究旨在解决以下3个研究问题:
1. 为了全面模拟旅游场景中各对象之间的复杂相关性,进而实现旅游偏好挖掘和旅游发展规划的完整决策支持系统,采用何种数据组织模式和知识表示本体将大型多源异构的旅游数据整合到一个统一的架构中?2. 与旅游管理中常用的传统文本挖掘方法相比,TKG方法在准确提取旅游偏好知识和细致刻画旅游场景方面会带来哪些重大改进?3. 通过构建的TKG,将揭示哪些新的旅游偏好规律性特征,以及如何进一步研究其因果解释和潜在影响?此外,TKG可以促进哪些下游决策支持任务,可以提供哪些具体的增强功能?
二、相关工作
2.1 旅游偏好分析
2.2 旅游研究中的文本分析
2.3 知识图谱
三、研究材料与方法
3.1 研究框架
3.2 语料库
•为了全面了解旅游偏好的规律,作者收集了全国340个地级以上城市的旅游数据。旅游界普遍认为,UGC和PGC是相辅相成的。UGC代表旅游者实际感受到的旅游地形象,而PGC则反映DMOs的投影形象。因此,UGC和PGC结合起来,形成了一个包含景点综合特征的语料库。具体来说,拥有前十点赞数的游客在线评论文本构成了该景点的UGC,而百科全书中的景点简介文本则被视为PGC。
•考虑到马蜂窝网站历史悠久、用户基数大、非商业定位,以及与其他平台相比更高的可靠性,马蜂窝网站被选为UGC数据源。马蜂窝成立于2006年,是一个由旅游爱好者推动的非营利性项目,随着时间的推移,已经发展成为中国最大的独立旅游服务平台,拥有1.2亿用户。它的主要组成部分是为用户提供有价值和精美的游记,以记录和分享自己的经验和指南,而相对边缘化的商业广告。在马蜂窝上,最突出的内容始终是用户精心制作的精美图片和优美的文字,而非广告。因此,相对纯净、高质量的UGC的大量存在,显著提升了马蜂窝作为数据源的可信度。此外,为确保其真实性和代表性在收集到的数据集中,作者比较了马蜂窝的平均互动次数和平均接待游客量。官方统计数字面板数据为2014年至2019年排名前50位的旅游地(不包括两个特别行政区)。皮尔逊相关系数的结果显示,与当局有0.726的强正相关。总的来说,马蜂窝平台可以作为构建TKG的UGC数据的合适来源。一种网络爬虫在Python 3.7中开发,通过访问mimic收集所有关于景点和用户的非私人信息。内容包括基本用户信息、旅行记录(数字足迹)和景点评论。在剔除不活跃用户(历史记录<5)和不想要的景点(访问次数<100)后,2014年1月至2019年4月,UGC数据集的规模为11,049,090条点评,涉及中国340个城市级旅游地的20,481个景点。
•作者选择百度百科作为后备PGC源是因为旅游地官方网页的结构变化使得网络爬虫很难应用。百度百科相当于中文维基百科,是中国最广泛的在线协作百科全书。作者根据景点的相同名称(或相似别名)和位置排列UGC和PGC。由百度百科的简介和十大最有帮助的游客评论构成了后续知识获取的旅游语料库。根据后续设计的本体,将用户的基本信息和出行历史信息提取成结构形式作为需求侧的知识。
3.3 TKG构建
这一部分阐述了旅游地管理组织决策库的构建,它分为本体设计和知识抽取。对于本体设计,作者首先在初步研究中进行快速无监督文本挖掘,其中主题和关键词是通过LDA以及TFIDF和TextRank从关于旅游活动的语料库中获得的。在此基础上,将初步研究结果与旅游专家知识相结合进行本体构建,前者起启发式参考作用,后者起主导作用。最终本体的设计方面的需求和供应,其细节如图。
• 在需求侧,考虑了游客流量,记录了游客从住所到 旅游 地的数字足迹、参观景点的顺序和满意度,可以有效地支持旅游者选择行为的多时空分析 。• 在供给侧,知识被划分为两个维度:生理和心理。利用基于该供给本体的互补知识,可以进一步探索旅游者对景点特征偏好的分布规律 。• 然后,作者进行了自动化的知识提取语料库,根据完成的本体通过ERNIE调整迁移学习。在预先训练的ERNIE上连接了一个多标签分类层。需要手动注释的数据集的一小部分培训数据(这些是文本对和相应的特征), 此后,原始的ERNIE不断地被调优,直到它能够根据本体准确地从文本中区分特征 。
四、TKG驱动的旅游决策支持
基于TKG的应用程序主要可以分为两类:符号查询和分布式推理,其过程如图3所示。查询模式是基于SPARQL查询通过Graph-DBMS有效地检索结构化知识在TKG,使系统的多时空统计分析来实现。该系统不仅能够挖掘旅游者行为偏好的一般规律,而且能够深入研究其形成机制和潜在影响。对于推理范式,通过KGE或GNN模型将符号化的知识三元组嵌入到低维稠密向量表示中。通过这种方式,可以注入旅游知识,以增强旅游的功效。表象学习为后续任务中的核心要素。本研究通过旅游需求预测和景点竞争情报分析,实现了知识驱动的决策支持任务。
4.1 符号查询
4.2 分布式推理
五、讨论
5.1 理论意义
5.2 管理意义
六、结论和未来工作
洞察游客的旅游偏好对于DMO进行准确的战略规划和长期决策至关重要。本研究提出了一个新的知识图谱驱动框架,通过构建TKG系统,准确地捕捉中国各地的旅游偏好特征。该TKG促进了旅游管理的综合决策支持系统。Graph-DMBS和SPARQL查询可以有效地部署TKG内部的大量知识,以全面探索旅游偏好的地理规律,澄清了相对因果解释,并揭示了对旅游地发展的影响。此外,从尖端KGE或GNN模型获得的知识的分布式表示可以显著增强多个下游决策支持任务,如需求预测和竞争情报。
本研究仍存在一些局限性,有待进一步研究。首先,为解决旅游业中更广泛和复杂的任务,如问答系统,KG需要纳入来自其他多式数据源更多样化的知识,如活动信息、利益相关者之间的商业关系和旅游者的网络信号。第二,在TKG的基础上,开发面向旅游业的显性知识丰富的PTM将是一个有前景的方向。作者的目标是建立一个积极的反馈循环,PTM为TKG提取知识,然后TKG用新的见解丰富PTM。