illusionX——一个从理解情感到改变学习、创新教育体验集成情感计算的混合现实系统
概述
论文地址:https://arxiv.org/pdf/2402.07924.pdf
近年来,情感计算在丰富人类与计算机和机器的交互方式方面备受关注。这一创新领域旨在通过理解和响应用户的情绪和心理状态,将人机交互转变得更加自然和直观。无论是情感识别、面部表情分析还是用户参与检测,这项技术都在人机交互(HCI)和人机交互(HMI)领域发挥着重要作用。
情感计算系统通过捕捉对话和手势等语言和非语言交流信号来实现这些目标。通过利用机器学习算法来分析用户的情绪并推导出适当的回应,从而实现更像人类的交互。
教育也是人类生活的一个重要领域,人工智能(AI)和情感计算等前沿技术使个性化学习体验成为可能。人工智能在提高教育质量和促进个性化学习方面的影响力尤为突出,人们对将 ChatGPT 等工具整合到教育中的策略进行了大量研究。此外,混合现实(MR),包括虚拟现实(VR)和增强现实(AR),也已成为一种很有前途的技术,可增强学习体验,特别是在 COVID-19 大流行后的在线学习和电子学习领域。
论文提出了一个新系统–illusionX,它结合了混合现实、人工智能和情感计算,可为学习者提供个性化支持,帮助教育者准备更具互动性的课程。
本文从大规模语言模型和混合现实系统的最新概念入手,深入探讨了它们如何帮助教育以及可能面临的挑战。通过系统的功能和非功能要求、设计组件以及研究和测试结果,论文展示了我们开发的系统如何在教育领域发挥作用。最后,作为总结,我们概述了该系统以及该领域的未来前景,并强调这是第一个专门针对教育领域将大规模语言建模、混合现实和情感计算结合起来的系统。
系统要求
illusionX 系统旨在为教育目的提供更加个性化的体验和卓越的用户体验。该系统分为两个主要部分:一个是软件应用程序(人工智能、后台和移动应用程序),另一个是硬件设备(智能眼镜和智能手表)。下面将介绍这一创新系统的特点和要求。
首先是系统的主要功能。
- 信息搜索:可应用户要求提供各种主题的信息。
- 教学技能:能够针对不同的理解水平教授和解释复杂的课题。
- 任务支持:支持与学习有关的任务,如整理笔记、概括文章等。
- 对话式和沉浸式界面:用户可以通过闲聊与系统互动,就像朋友一样。
功能要求如下
- RE1:能够根据用户的要求提供有关各种主题的准确信息。
- RE2:为用户提供对话式和沉浸式体验。
- RE3:用户可以根据自己的需求创建自定义聊天机器人。
- RE4:多种用户验证方法。
- RE5:95% 以上的时间用户仍可访问。
非功能性要求如下
- N-RE1: 拥有直观和用户友好的界面。
- N-RE2:支持大量用户同时使用,同时保持响应时间并确保可扩展性。
- N-RE3:采取强有力的安全措施,保护数据保护和隐私。
此外,大规模语言模型的使用可能会引起某些与信息和教育内容的准确性有关的伦 理问题。特别是,一个被称为 "幻觉现象 "的问题与大规模语言模型生成的信息并非基于事实这一事实有关。这在教育领域是一个特别严重的问题。我们的目标是通过参数调整、利用外部知识和评估反馈等多种方法来解决这一问题,最大限度地减少幻觉现象。
该系统是塑造未来教育技术的一个创新步骤,旨在为用户提供有价值的学习体验。
系统设计和组件
在此介绍其主要组成部分。
首先是大规模语言模型。该系统的核心是通过 API 使用预先训练好的大规模语言模型。可供选择的有 ChatGPT、PaLM2 和 Google Gemini,但由于易于使用、成本问题和可用性,我们选择了 PaLM2 PaLM2 可通过 Python 访问,我们使用 Python 开发了我们的后端和 API与 Python 语言兼容。
其次是应用程序接口。该系统的另一个关键要素是利用 FastAPI 和 PostgreSQL 开发的 IllusionX 应用程序接口。可扩展性,以满足系统的可扩展性要求。之所以选择 PostgreSQL 作为数据库,是因为它具有卓越的性能和在业务场景中的适用性。此外,还使用 Alembic 作为数据库迁移工具,使用 Pydantic 进行模式验证。
第三,移动应用程序–通过使用 Flutter 开发的跨平台移动应用程序,该系统更加易于访问。它可以实现登录、注册和聊天功能,还可以管理各专业领域的聊天机器人(代理)。友好的用户界面便于目标用户群采用和使用。
第四个是智能眼镜和智能手表。系统的硬件部分包括智能手表和智能眼镜。智能眼镜利用 AR 显示器在镜片上显示数字信息,而智能手表则采用定制设计的片上系统(SoC),可根据用户需求生成音频和视觉响应。两者结合在一起,可让用户享受互动式 MR 体验,沉浸在与自身环境相融合的虚拟环境中。
测试和结果
为评估目标受众对该系统的采用情况,我们进行了一项调查,并请目标受众的代表填写调查表。约 87.5% 的用户在回复调查时表示,他们会对帮助自己学习和处理日常事务的个人伴侣感兴趣;67% 的用户会对包含文字和语音指令的系统感兴趣;62.5% 的用户会对可用于搜索信息的系统感兴趣;62.5% 的用户会对可用于搜索信息的系统感兴趣。62.5%的受访者表示他们会使用该系统搜索信息,这表明这是最需要的系统功能。下表列出了用户选择的其他功能及其各自的百分比。请注意,用户在每个回答中可以选择多项功能。
该系统在学习的关键任务(课程描述和大纲生成、课程生成和问答)上进行了测试。本文还将该系统与 PaLM 进行了比较。在本文中,PaLM 模型被用作基础模型,但为了了解它是否比 vanilla 模型改善了提取结果,对知识嵌入模块进行了测试:通过向模型提供 PDF 文档来嵌入知识,然后用它来生成课程描述和大纲。
首先是课程描述。在生成课程描述和大纲时,我们在 vanilla PaLM 中测试了三种不同的提示。我们在两个领域进行了测试:人工智能(AI)和纳米电子学。我们发现,虽然 vanilla PaLM 能够生成一致的课程,但对学生来说往往过于宽泛或过于非技术性。另一方面,当使用 illusionX 进行测试时,它能够生成更详细的课程描述,尽管受到给定文档和提示中蕴含的知识的限制。
在课程生成方面,幻觉在 illusionX 中略有减少。在 illusionX 中,Q&A 还能回答更多技术性和更详细的问题,而 vanilla PaLM 有时会产生幻觉或解释与用户要求不同的概念。
该系统的优缺点概述如下
还对有效的提示指南进行了测试。测试结果表明,以下提示准则有助于产生更有效的应答
- 赋予模型一个角色。例如,"扮演大学教授 "或 “你是大学教授”。
- 尽可能详细地提供有关课程的信息,无需提供技术方面的信息。
- 确保提供的文件与主题相关且条理清晰。
(示例提示)扮演大学教授,为 VLSI 设计入门课程编写详细的课程说明和大纲。该课程应面向初级工程专业学生。课程应涵盖 VLSI 基础知识以及 VLSI 系统的设计过程和制造过程。课程时间跨度为 12 周。
总结
本文介绍了一种新的大规模语言模型驱动混合现实系统 illusionX,它正在给教育领域带来一场革命。该系统在实现学习目标和支持教育任务方面取得了微小但实实在在的进步。进一步发展的空间包括增加更精确的定制设计组件,以及对系统进行根本性重组,以提供更实用、更准确的信息。
应特别注意纳入考虑到有特殊需要的用户的功能,以及通过多语言和多模态支持增强用户体验。预计硬件设计和技术也将取得重大进展。
该系统借鉴了为评估技术在教育领域的应用和性能而进行的测试结果,强调了技术的潜力和现实世界的挑战。它还探讨了未来的改进方向,并包括对该系统所涉及的伦理问题的讨论。
这项研究提供了一个新的视角,是迈向未来教育技术的一步。希望该系统未来能提高教育质量,为学习者提供更丰富的体验。