当前位置: 首页 > article >正文

浏览器自动化与AI Agent结合项目browser-use初探

browser-use介绍

browser-use是将您的 AI 代理连接到浏览器的最简单方式。它通过提供一个强大且简单的接口来实现 AI 代理访问网站的自动化。

GitHub地址:https://github.com/browser-use/browser-use。目前已经获得了27.3k颗stars,2.7kforks,看得出来是一个比较热门的项目。我在上手体验了之后,发现确实是一个很有趣的项目,因此推荐给大家。

实践

上手也非常简单,创建一个python虚拟环境,pip install browser-use,再playwright install即可。

现在需要进行LLM的配置,官方推荐使用gpt-4o,但是为了降低成本,方便让看了教程感兴趣的人能够方便上手,这里我使用的是硅基流动提供的模型。目前硅基流动注册送14元不过期额度,够用一段时间的了,邀请链接:https://cloud.siliconflow.cn/i/Ia3zOSCU。如果你的额度不够了,但是也想体验一下,可以私聊我,我可以提供一个api key暂时供你快速上手体验,额度用差不多了,我就停止了。

创建一个.env文件,这样写:

Silicon_Cloud_API_KEY=xxx
Base_URL=https://api.siliconflow.cn
Model=Qwen/Qwen2.5-72B-Instruct

创建一个test脚本,这样写:

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import os
load_dotenv()

import asyncio

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="获取https://github.com/OpenInterpreter/open-interpreter仓库的前五个问题",
        llm=llm,
        use_vision=False,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

查看效果:

image-20250212085716642

image-20250212085758634

image-20250212085834372

还生成了一个agent_history.gif可以查看流程:

将结果与实际对比:

image-20250212090403603

可以发现browser-use非常准确的获取了。

再使用一个更普遍的例子,就是获取当前微博前十的热搜。

from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import os
load_dotenv()

import asyncio

api_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')

llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)

async def main():
    agent = Agent(
        task="获取当前微博前十的热搜",
        llm=llm,
        use_vision=False,
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

image-20250212090822384

image-20250212090907000

最后

以上就是使用硅基流动中的Qwen/Qwen2.5-72B-Instruct快速体验browser-use的效果。初步体验感觉是一个很有潜力的项目,将AI Agent与浏览器自动化结合确实可以做很多事情。


http://www.kler.cn/a/544096.html

相关文章:

  • 网络安全-攻击路径
  • Leetcode - 周赛435
  • 【工业场景】用YOLOv8实现火灾识别
  • 渗透利器:Burp Suite 联动 XRAY 图形化工具.(主动扫描+被动扫描)
  • PH热榜 | 2025-02-10
  • 计算机毕业设计——Springboot的旅游管理
  • redis 缓存击穿问题与解决方案
  • 数据守护:备份文件的重要性及自动化备份实践指南
  • GPT-SWARM和AgentVerse的拓扑结构和交互机制
  • Java面试——Tomcat
  • w~大模型~合集30
  • pdf.js默认显示侧边栏和默认手形工具
  • 【c++】四种类型转换形式
  • OpenWRT中常说的LuCI是什么——LuCI介绍(一)
  • 团结引擎高性能ECS架构(下)
  • 城电科技|海岛为什么要用智能光伏太阳花
  • Python练习11-20
  • 【机器学习】数学知识:拉格朗日对偶(Lagrange Duality)
  • Java面试突击
  • pytorch环境已安装库汇总
  • 【蓝桥杯】大纲
  • 纪念日倒数日项目的实现-【纪念时刻-时光集】
  • Ansible的语法
  • 微服务保护---Sentinel
  • javascript中数组的常见的简便写法,javascript中map, filter, forEach, reduce 等方法组合使用
  • Golang GORM系列:GORM CRUM操作实战