当前位置: 首页 > article >正文

Claude发布桌面客户端!新功能支持分析100页PDF的图像!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

对于AI工具来说,桌面客户端的重要性正在逐渐提升。

首先是老大哥OpenAI,5月发布了Mac版本的ChatGPT桌面客户端,10月发布了Windows版桌面客户端。

同样是今年10月,AI搜索领域的王者选手Perplexity发布了其首个原生Mac版本桌面客户端。

同同同样是今年10月,OpenAI强有力的竞争对手——Anthropic,发布了Claude桌面客户端,包括Mac和Win两个版本。

1. Claude桌面客户端

下载地址:https://claude.ai/download

随着Claude桌面客户端的发布,Claude应用家族就集齐了iOS、安卓两个移动端app,Mac、Win两个PC客户端,以及web网页端。

经常使用Claude的小伙伴可以按照上面的链接按需下载安装。

虽然Claude发布桌面版客户端值得称赞,但遗憾的是,本次发布的Claude桌面版并非传统意义上的原生应用,而是一个基于Electron框架开发的跨平台应用。简单来说,就是把Claude网页端功能封装在这个桌面应用中,以实现在PC上直接运行Claude,无需再通过浏览器。这种方式以超高的开发效率实现跨平台的支持,但不可避免的有着资源占用高(主要是内存)、性能可能不如原生应用的缺点。

即使如此,如果你是一个Claude重度用户,还是很推荐Claude桌面客户端,毕竟不再需要每次都“打开浏览器”>“打开Claude网页”>“登录”使用了。并且,和ChatGPT桌面客户端一样,Claude桌面客户端也有用于快速呼出的快捷键。Mac版本的快捷键是Option+Space,Win版快捷键是Ctrl+Alt+Space

不论你处于PC的什么界面,在键盘上输入上述快捷键后,都会出现Claude的问题输入窗口,便于随时随地提问。

2. Claude新功能支持分析100页PDF的图像

10月24日,Claude发布了一个非常实用的功能:数据分析。支持csv格式的输入数据,能够直接运行JavaScript代码来进行读取、解析、重构等数据分析。

当时,数据分析功能还仅支持csv格式。一周后的今天,Claude官方新增了对PDF格式的支持,包括PDF文件中的图像、图表和图形!PDF的最大页数目前支持100页!

这个功能和之前的数据分析功能一样,都是处于Beta阶段,位于Claude的Feature Preview版块,需要手动操作打开该功能。

https://claude.ai/new?fp=1

可以直接通过上面的链接进入Feature Preview页面,然后选择Visual PDFs,把开关按钮打开即可。也可以在设置里进入这个页面。

视觉PDF这一功能看似和原有的多模态重复了,但其实不然。之前大多数AI模型的多模态对PDF的支持仅限于文字版PDF,或由word文档转为的PDF。而对于扫描版PDF,及由图片直接生成的PDF,大多数模型是不直接支持的。主要是因为要想理解扫描版PDF中的内容,需要经过转化这一步骤。首先要把PDF的每一页转化为图片,然后由AI模型的多模态能力来解析图片内容,最终整合为PDF的解析。

Claude新增的这一功能原理也是如此。系统首先会提取PDF文件的内容,即把每一页转换为图像,同时提取每页的文本。接着由Claude模型进行内容分析,不仅理解文档中的文字内容,还可以处理图表、图片等视觉元素。并且,Claude的这个视觉PDF功能可以结合Claude的其他功能使用,如提示缓存、批量处理和工具调用等等。

目前仅最新版本的Claude 3.5 Sonnet模型(claude-3-5-sonnet-20241022)支持视觉PDF功能。并且,PDF的大小限制:最大32MB;页数最多支持100页的PDF文件。

结语

最后说明一下很多小伙伴的疑问,对于免费用户,Claude目前实行的是动态调整默认模型,当计算资源紧张时,免费用户能用的模型将从Claude 3.5 Sonnet切换至小模型Claude 3.5 Haiku。当资源充足时,会自动切换回来。


精选推荐


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。


http://www.kler.cn/a/382495.html

相关文章:

  • 【人工智能】自然语言生成的前沿探索:利用GPT-2和BERT实现自动文本生成与完形填空
  • 深入讲解 Docker 及实践
  • 备忘录记事工具 四款好用的电脑备忘录记事本分享
  • Spring IoC DI 入门 和 使用
  • “深入浅出”系列之QT:(6)如何在一个项目中调用另一个项目
  • [Git] git cherry-pick
  • 知识课堂——高匿ip在不同业务中的重要作用
  • 蓝桥杯真题——乐乐的序列和(C语言)
  • 每日算法一练:剑指offer——字符串篇(2)
  • Lua 怎么解决闭包内存泄漏问题
  • 【Java算法】分治--归并排序
  • C语言之写一个修改数组内容的函数
  • 【ChatGPT】如何使用条件逻辑让ChatGPT生成可选输出
  • 开源思维-到底什么是开源?
  • 【Allure】allure装饰器函数
  • java面试2.0
  • HTML 标签属性——id、class、style 等全局属性详解
  • 【Rust中的迭代器】
  • 综述一部分Knowledge Graphs Meet Multi-Modal Learning:A Comprehensive Survey
  • C 学习(4)
  • 探索信息技术的未来:趋势、机遇与挑战
  • 【MySQL系列】区分大小写与支持表情字符的考量
  • 2024年,私域还好做吗?(三)
  • Spring Boot关闭时,如何确保内存里面的mq消息被消费完?
  • OpenAI 的 正式版o1 模型意外泄露,推理能力真是震撼——事情是这样的
  • springboot2.x使用SSE方式代理或者转发其他流式接口