DeepSeek-R1性能如何?如何使用DeepSeek-R1和o1 Pro模型
我们一起来看看DeepSeek-R1模型和OpenAI o1模型的能力如何?接下来,我们先看数据结果,然后再实际体验,我们今天就让他们写个python爬虫脚本来爬取所有有关孙颖莎和樊振东的相关报道和图片。
DeepSeek-R1
DeepSeek介绍自己说 "我们推出了自己的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出色。在 RL 的帮助下,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而,DeepSeek-R1-Zero 面临着诸如无休止重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,现在DeepSeek引入了 DeepSeek-R1,它在 RL 之前整合了冷启动数据。DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 中提炼出的六个密集模型。 DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中均优于 OpenAI-o1-mini,为密集模型取得了新的最先进成果。"
image
DeepSeek-R1 Models
DeepSeek-R1-Distill Models
image
OpenAI VS DeepSeek-R1英文环境常规处理能力
OpenAI VS DeepSeek-R1代码能力:
OpenAI VS DeepSeek-R1数学得分
OpenAI VS DeepSeek-R1中文支持得分
实例展示:
OpenAI o1 pro模型(因为o1模型今天被我用完了,所以用o1 pro模型)
image
image
如何获取OpenAI o1模型?
image
PS: o1模型需要升级ChatGPT才能使用,我用了将近一年多的时间了,一直用的这种方式升级,需要的童鞋可以参考:ChatGPT Plus Pro会员订阅教程** 需要镜像账号的可以私我哦(aicygg888)!
问题描述:我是一个python小白,我的操作系统是windows, 我需要使用python语言,完成一个爬虫脚本爬取所有有关孙颖莎和樊振东的相关报道内容和图片,并汇总到word文档里面,请给出运行全部流程,解释相关代码实现,并展示爬取结果
以下是o1 pro model的全部回答:
我将为您提供一个详细的Windows系统下Python爬虫实现方案。这个方案包含完整的代码解释和安全注意事项,请严格按照步骤操作:
-
环境准备
1.1 安装Python(推荐3.9+版本)
1.2 安装所需库(CMD执行):
pip install requests beautifulsoup4 python-docx Pillow
-
完整代码实现(分模块讲解)
import os
import time
import requests
from bs4 import BeautifulSoup
from docx import Document
from docx.shared import Inches
from urllib.parse import urljoin
# 配置参数
KEYWORDS = ["孙颖莎", "樊振东"]
BASE_URL = "https://news.baidu.com/ns?word={}&pn={}"
HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Cookie': '您的实际Cookie' # 需要实际获取
}
def get_news_links():
"""获取新闻链接和标题"""
news_data = []
for keyword in KEYWORDS:
page = 0
while page < 30: # 控制爬取页数
url = BASE_URL.format(keyword, page*10)
try:
response = requests.get(url, headers=HEADERS, timeout=10)
soup = BeautifulSoup(response.text, 'html.parser')
results = soup.find_all('div', class_='result')
for item in results:
title = item.h3.get_text(strip=True)
link = item.h3.a['href']
news_data.append({
'title': title,
'link': link,
'keyword': keyword
})
page += 1
time.sleep(2) # 降低请求频率
except Exception as e:
print(f"获取页面错误:{str(e)}")
break
return news_data
def download_images(content, folder):
"""下载并保存图片"""
os.makedirs(folder, exist_ok=True)
soup = BeautifulSoup(content, 'html.parser')
img_urls = [img['src'] for img in soup.find_all('img') if 'src' in img.attrs]
saved_paths = []
for idx, img_url in enumerate(img_urls):
try:
full_url = urljoin(content.url, img_url)
response = requests.get(full_url, stream=True, timeout=10)
if response.status_code == 200:
img_path = os.path.join(folder, f"img_{int(time.time())}_{idx}.jpg")
with open(img_path, 'wb') as f:
for chunk in response:
f.write(chunk)
saved_paths.append(img_path)
except Exception as e:
print(f"下载图片失败:{str(e)}")
return saved_paths
def save_to_word(news_data, doc_path):
"""生成Word文档"""
doc = Document()
for item in news_data:
# 添加标题
doc.add_heading(item['title'], level=1)
# 获取正文内容
try:
response = requests.get(item['link'], headers=HEADERS, timeout=10)
soup = BeautifulSoup(response.text, 'html.parser')
content = soup.find('div', class_='article-content') or soup.find('body')
# 添加正文
for p in content.find_all('p'):
doc.add_paragraph(p.get_text(strip=True))
# 下载并插入图片
img_folder = os.path.join(os.getcwd(), 'images', item['keyword'])
images = download_images(response.content, img_folder)
for img_path in images:
doc.add_picture(img_path, width=Inches(4.5))
doc.add_page_break()
time.sleep(1)
except Exception as e:
print(f"处理文章失败:{str(e)}")
continue
doc.save(doc_path)
if __name__ == "__main__":
# 执行流程
print("开始爬取新闻链接...")
news_items = get_news_links()
print(f"共获取到 {len(news_items)} 篇相关报道")
print("开始生成Word文档...")
save_to_word(news_items, "sports_report.docx")
print("文档已生成!请查看当前目录下的 sports_report.docx")
-
代码关键点解释
3.1 请求配置:
-
使用真实Cookie(通过浏览器开发者工具获取)
-
设置合理的User-Agent
-
增加2秒请求间隔
3.2 数据提取:
-
使用CSS选择器定位元素
-
处理相对链接转绝对链接(urljoin)
-
异常处理机制
3.3 反爬策略应对:
-
随机延时
-
图片重命名策略
-
请求失败重试机制
-
运行结果示例: 生成的Word文档将包含:
-
按关键词分类的新闻报道
-
带格式的正文内容
-
插入的新闻图片
-
自动分页排版
文件结构:
项目目录/
├── sports_report.docx
└── images/
├── 孙颖莎/
│ ├── img_1620000000_0.jpg
│ └── ...
└── 樊振东/
└── ...
-
注意事项:
① 法律合规:添加 robots.txt 检查代码(需根据目标网站具体设置)
② 性能优化:建议增加代理IP支持
③ 错误处理:添加日志记录功能
④ 隐私保护:代码中的Cookie需替换为实际值
如需更详细的某部分实现说明或遇到具体问题,请提供更多上下文信息,我会给出针对性建议。建议首次运行时先尝试少量页面的爬取(可修改while page < 3),测试通过后再进行完整采集。
DeepSeek-R1模型
如何使用DeepSeek-R1模型
以下是R1模型的全部回答
以下是为您定制的Python爬虫解决方案,包含详细步骤说明和代码解释:
一、环境准备
-
安装Python 3.x(官网下载安装包)
-
安装必要库(在CMD中执行):
pip install requests beautifulsoup4 python-docx lxml
二、完整代码实现
import os
import requests
from bs4 import BeautifulSoup
from docx import Document
from docx.shared import Inches
from urllib.parse import quote
# 配置参数
KEYWORDS = ["孙颖莎", "樊振东"]
SEARCH_URL = "https://news.baidu.com/ns?word={}"
HEADERS = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
def create_folder(folder_name):
"""创建存储文件夹"""
if not os.path.exists(folder_name):
os.makedirs(folder_name)
def fetch_news():
"""抓取新闻数据"""
document = Document()
img_folder = "news_images"
create_folder(img_folder)
for keyword in KEYWORDS:
document.add_heading(f"{keyword}相关报道", level=1)
# 发起搜索请求
encoded_word = quote(keyword)
response = requests.get(SEARCH_URL.format(encoded_word), headers=HEADERS)
soup = BeautifulSoup(response.text, "lxml")
# 解析新闻结果(示例选择器,可能需要根据实际页面调整)
news_items = soup.select(".result")
for index, item in enumerate(news_items[:5]): # 取前5条结果
try:
title = item.select_one("h3 a").text.strip()
content = item.select_one(".c-summary").text.strip()
time = item.select_one(".c-time").text.strip()
source = item.select_one(".c-title-author").text.strip()
img_url = item.select_one("img")["src"] if item.select_one("img") else None
# 添加到文档
document.add_heading(title, level=2)
document.add_paragraph(f"发布时间:{time}")
document.add_paragraph(f"来源:{source}")
document.add_paragraph(content)
# 下载并插入图片
if img_url:
img_data = requests.get(img_url).content
img_path = f"{img_folder}/{keyword}_{index}.jpg"
with open(img_path, "wb") as f:
f.write(img_data)
document.add_picture(img_path, width=Inches(4))
document.add_page_break()
except Exception as e:
print(f"处理第{index}条数据时出错:{str(e)}")
continue
document.save("news_report.docx")
print("文档已生成!")
if __name__ == "__main__":
fetch_news()
三、代码解析
-
环境配置:
-
KEYWORDS
:设置要搜索的关键词 -
SEARCH_URL
:使用百度新闻搜索接口 -
HEADERS
:模拟浏览器访问,避免被反爬
-
-
核心函数:
-
create_folder()
:创建图片存储目录 -
fetch_news()
:主函数处理搜索、解析、存储全流程
-
-
工作流程:
-
发送搜索请求获取HTML
-
使用BeautifulSoup解析页面
-
提取标题、时间、来源、正文和图片链接
-
保存图片到本地
-
将内容按格式写入Word文档
-
四、运行步骤
-
将代码保存为
news_crawler.py
-
在CMD中执行:
python news_crawler.py
- 查看生成的:
-
news_report.docx
文档文件 -
news_images
图片文件夹
-
五、注意事项
-
网站改版需调整CSS选择器
-
添加延时避免频繁请求(示例未包含,可添加
time.sleep(2)
) -
实际使用时需遵守网站robots.txt协议
-
搜索结果可能受百度算法影响
六、示例输出效果
生成的Word文档将包含:
标题:孙颖莎晋级女单决赛
发布时间:2023-07-15 10:23
来源:新浪体育
内容:在刚刚结束的WTT比赛中...
[配图]
---
标题:樊振东卫冕男单冠军
发布时间:2023-07-14 18:45
来源:腾讯体育
内容:在昨晚的决赛中...
[配图]
建议先使用测试关键词(如"测试")验证程序,确认无误后再替换为实际关键词。如需扩展功能,可以添加:
-
分页爬取
-
自动摘要生成
-
关键词高亮
-
数据去重等功能
遇到具体问题时可进一步优化调整代码,建议先从少量数据开始测试,逐步完善功能。
END:
o1 pro VS R1总结:
1、o1 pro的思考时间比R1快一秒
2、o1 pro比R1更详细 大家快去试试
谁的正确性高,能不能正常运行吧