文章

Claude 4 登陆 Cursor:72.7% SWE-bench 成绩背后的真实编码体验

见字如面,分享实践中的经验与思考。若有启发,请点赞收藏。

昨天 Anthropic 发布了 Claude 4,号称是"世界上最好的编码模型"。说实话,现在大语言模型官方宣传都很夸张,各种评分表也是遥遥领先,尤其是这次 Claude 4 的评测数据确实让人眼前一亮:在 SWE-bench 上达到 72.7%,这可是真实软件工程任务的评测,不是玩具级别的算法题。

本文将使用 Claude 4(主要是 Claude-4-sonnet)在 Cursor 中的实战体验,看看它在实际编码中的表现如何。

官方介绍

Anthropic 推出了最新的下一代 Claude 模型:Claude Opus 4Claude Sonnet 4,为编码、高级推理和 AI 代理设定了新标准。

其他内容:

  • 使用工具进行扩展思考(测试版):在扩展思考期间使用工具(如网络搜索)

  • 新的模型功能:可以并行使用工具,更精确地遵循指令,并且当开发人员授予对本地文件的访问权限时,可以展示显著改进的记忆功能

  • Claude Code 现已正式提供:扩展了开发者与 Claude 的合作方式。Claude Code 现在支持通过 GitHub Actions 进行后台任务,并与 VS Code 和 JetBrains 进行原生集成,直接在文件中显示编辑内容,实现无缝结对编程。

  • 新的 API 功能:开发者能够构建更强大的 AI 代理:代码执行工具、MCP 连接器、文件 API,以及最多可缓存一小时提示的能力。

Claude 4 模型

Claude Opus 4 在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上领先。它在复杂和长时间任务中持续表现优异。

Claude Sonnet 4 在 Sonnet 3.7 的行业领先能力基础上进行了显著改进。它在编程方面表现优异,在 SWE-bench 上达到了 72.7%的顶尖水平。该模型在内部和外部用例中平衡了性能和效率,提供了能力和实用性的最佳组合。

以下是官方的性能评分表:

Bar chart comparison between Claude and other LLMs on software engineering tasks

Benchmark table comparing Opus 4 and Sonnet 4 to other LLM

以上数据来源:https://www.anthropic.com/news/claude-4

Cursor 定价

在 Cursor 中 Claude 3.7 Sonnet 消耗 1 个请求,thinking 推理模型会消耗 2 个请求。当前 Claude-4-Sonnet 消耗 0.5 个请求,Claude-4-Sonnet-Thinking 则消耗 0.75 个请求。这是一个临时折扣策略,不确定什么时候恢复原价。

CleanShot 2025-05-23 at 10.29.42@2x

实战测试

将使用 Cursor 0.50.5 和 Claude-4-sonnet。如果想要下载新版本 Cursor ,使用如下地址:

https://github.com/flyeric0212/cursor-history-links

01 产品 UX 原型图设计

提示词:

你是一名精通 UI 设计和产品规划的全栈工程师,你的目标是完成一个"健身普拉提"iOS App 的开发。
​
你的核心任务是输出一套完整的APP原型图(HTML页面形式)来辅助后续的开发任务。
​
核心执行点:
​
- 明确功能与页面: 请你构思并确定"健身普拉提"App的核心功能模块。基于这些模块,规划出需要设计的HTML页面清单。
- 产品与UI/UX设计:
  - 以产品经理的视角规划APP的关键功能、页面流程和交互逻辑。
  - 以设计师的视角输出符合现代iOS App风格的、美观且用户友好的UI/UX。
​
技术规范:
​
- 使用 HTML5、Font Awesome、Tailwind CSS 和必要的 JavaScript(用于基础交互)。
- 图片素材请使用 Unsplash。
- 代码应简洁,注重可读性。
​
输出要求:
​
- 创建一个包含多个 HTML 页面的原型。
- 主页面命名为 index.html,它可以整合或跳转到其他页面。
- 非主页面HTML文件使用其对应的核心功能名称进行命名(英文,例如 courses.html, profile.html)。
- 每个页面均需采用 iOS App 的风格生成。
- index.html 中,每行展示两个主要功能模块的入口或页面预览。
- 所有输出(包括代码内注释和页面文本)永远用简体中文。
- 请以顶级UX的眼光和审美标准,创造令人满意的设计。
​
请直接开始设计并输出上述要求的HTML原型页面代码,从 index.html 开始,然后是其他你规划的核心功能页面。

效果图:

Claude-3.7-sonnet 的效果图对比参考文章:用 Cursor 一步搞定 UI 原型图:有交互、可扩展、易维护(附教程)

CleanShot 2025-05-23 at 13.53.04@2x

CleanShot 2025-05-23 at 13.59.04@2x

CleanShot 2025-05-23 at 13.57.37@2x

实际体验:

  1. 代码生成一致性:Claude 3.7 具备了完整的端到端生成能力,无需额外人工干预,但 Claude 4 在部分 HTML 文件在生成过程中存在没有 apply 的情况,需要手动 reapply操作,该问题在多轮测试中重现性较高。

  2. UI 设计风格对比:两个模型在原型设计完成度方面表现相当,Claude 4 在色彩饱和度和视觉层次方面更为丰富,Claude 3.7 则倾向于简约的设计语言。

02 前端单页应用

使用 React 开发个人博客应用。

提示词:

使用 React + Vite 开发一个博客单页应用,包含四个页面:首页、书籍、关于我们和联系我们。通过导航菜单实现页面间的无刷新切换,确保切换过程流畅且用户体验良好。

效果图:

Claude-3.7-sonnet 的效果图对比参考文章:Cursor 中 Claude 3.7 vs 3.5 前端开发深度对比,遥遥领先!(附源码)

CleanShot 2025-05-23 at 14.25.17@2x

CleanShot 2025-05-23 at 14.26.43@2x

CleanShot 2025-05-23 at 14.27.38@2x

CleanShot 2025-05-23 at 14.28.14@2x

CleanShot 2025-05-23 at 14.28.43@2x

实际体验:

  1. 端到端代码生成:从项目初始化到应用的运行,零人工干预,显著提升开发效率并减少会员请求次数。

  2. 智能功能扩展:在最小化提示词输入的情况下,AI 自动补充了丰富的功能特性,对于非技术背景的用户友好,支持后续通过自然语言进行迭代优化。

  3. 前端技术栈优化:在视觉设计方面相比 Claude 3.7 和 Claude 3.5 实现了显著提升,自动集成了图标系统、色彩主题、微交互动效以及第三方图片资源(Unsplash),体现了更加成熟的代码工程化思维。

自 Claude 3.7 发布以来,官方持续强化其前端开发能力,Claude 4 在此基础上进一步深化了在用户界面设计与交互体验方面的技术优势。

03 架构图绘制

使用 Claude 4 生成各种 PlantUML 架构图,以 C4 架构图和 DDD 分层架构图为例。与 claude 3.7 模型对比效果图,可以参考:Cursor 结合 PlantUML 高效绘制架构图实践

1)C4架构提示词:

请使用PlantUML为一个企业集成平台创建C4模型图。该平台需要集成多个内部系统和外部服务,实现数据同步和业务流程自动化。
​
1. 请创建以下C4视图:
   - 系统上下文图(System Context Diagram):展示整个集成平台与外部系统的关系
   - 容器图(Container Diagram):展示集成平台内部的主要组件
   - 组件图(Component Diagram):展示关键容器的内部组件
​
2. 集成平台需要连接的系统包括:
   - 内部系统:ERP系统、CRM系统、HR系统、财务系统、数据仓库
   - 外部系统:供应商门户、客户门户、支付服务提供商、政府监管平台
​
3. 集成平台的主要容器包括:
   - API网关
   - 集成服务总线(ESB)
   - 微服务集群
   - 消息队列
   - 数据处理引擎
   - 规则引擎
   - 监控和日志系统
   - 安全与身份验证服务
​
4. 在组件级别,详细展示ESB和数据处理引擎的内部组件
​
5. 添加适当的描述说明各系统和组件的职责

效果图:

image-20250523145048002

image-20250523145102065

image-20250523145113231

image-20250523145127394

实际体验:

  1. 架构图生成效率:实现了一次性生成完整的 PlantUML 代码,每个文件的分类便于后续的可维护性

  2. 组件关系建模:在系统架构的组件关系表达方面更加精准,一定程度上减少反复发送指令调整的苦恼。

2)DDD 分层架构提示词:

请使用PlantUML为一个基于领域驱动设计(DDD)的订单系统创建内部的代码分层架构图,展示完整的分层结构。要求如下:
​
1. 遵循DDD的经典分层架构:
   - 用户界面层/表示层(User Interfaces)
   - 应用层(Application Services)
   - 领域层(Domain Model)
   - 基础设施层(Infrastructure)
​
2. 调用关系:
  - 用户界面层在最外层,依赖并调用应用层
  - 应用层依赖领域层,负责编排业务流程,可调用基础设施服务
  - 领域层是系统核心,仅依赖自身定义的接口,不依赖任何外层,仅被应用层调用
  - 基础设施层依赖于领域层和应用层定义的接口,实现其功能细节,不主动调用内层业务逻辑
​
3. 包含外部系统集成(如支付网关、短信服务等)
​
请使用组件图(Component Diagram)语法,并为不同的层和模块使用不同的颜色,使用一个实体类进行样例描述,添加简要说明以解释关键概念。

效果图:

DDD-DDD

实际体验:

  1. 架构设计完整性:两个模型均能准确表达 DDD 核心架构概念,Claude 4 在领域建模的细节展现方面更为全面,提供了更丰富的架构元素描述。

04 SpringBoot 后端项目

后端项目之前采用的是 IDEA Junie 辅助编程,对比效果可以参考文章:IntelliJ IDEA 2025.1中 Junie AI 初体验

初始化项目提示词:

使用 Gradle 在当前项目中,创建一个SpringBoot项目,要求如下:
1. 项目的根package为:top.flyeric
2. springboot版本使用3.4.4,JDK版本使用21
3. ORM框架采用JPA,数据库采用H2
4. 核心模型为Book,主要字段有:id、title、author、isbn、description、price、publicationDate、publisher、pageCount、inStock、coverImageUrl、genre、language
5. 分层架构采用MVC

构建前端静态资源提示词:

基于当前项目的 CRUD API 之上实现Web UI,构建前端代码并将其集成到Spring Boot应用的静态资源中。并添加 10 条测试数据。

效果图:

CleanShot 2025-05-23 at 15.53.58@2x

CleanShot 2025-05-23 at 15.54.23@2x

CleanShot 2025-05-23 at 15.56.54@2x

实际体验:

  1. IDE 生态适配性:Cursor 在 Java 后端开发生态方面与专业 IDE(如 IntelliJ IDEA)存在功能差距,特别是在调试工具链、依赖分析等开发者体验方面;

  2. 项目初始化策略:采用文件级别的直接生成模式而非标准的 Gradle 命令行初始化流程,包括对 Gradle Wrapper 脚本文件的构建,是 AI 直接生成,而非 Gradle 命令生成,容易产生不可预料的 bug;

  3. 插件生态支持:由于缺乏 Lombok 注解处理器支持,自动回退至传统的 JavaBean 模式(手动 Getter/Setter 实现);

  4. 依赖管理自适应:在遇到依赖下载冲突时,AI 主动执行版本降级策略(SpringBoot 3.4.4→3.1,JDK 21→17),偏离了用户的技术栈规格要求;

  5. 智能错误恢复:展现了优秀的自我诊断和修复能力,通过集成的终端工具进行实时验证,实现了错误检测→自动修复的闭环处理机制,在不增加额外指令的前提下完成了问题解决;

  6. 前端集成优化:尽管采用了传统的静态资源部署模式,但在 UI 设计和交互体验方面显著超越了 IDEA Junie 的生成质量,包含了完整的导航系统和功能模块化设计。

最后

通过本次 Claude 4 在 Cursor 中的实战测试,我对这个新模型有了更深入的了解:

优势方面:

  1. 前端能力卓越:在 UI/UX 设计和前端开发方面表现突出,生成的页面美观度和交互体验显著提升

  2. 架构图绘制精准:PlantUML 代码生成质量高,架构图的逻辑性和完整性都很好

  3. 智能纠错能力:能够自动检测错误并进行修复,减少人工干预需求

  4. 一次性生成能力强:大多数场景下能够一次性生成完整可用的代码

存在的问题:

  1. 文件应用不稳定:部分代码在聊天框中生成但未能正确应用到文件中

  2. 后端项目支持欠佳:在 Java 项目中表现不如专业 IDE,依赖管理和版本控制存在问题

  3. 指令遵循度有待提升:在遇到困难时会自动降级版本,偏离用户原始需求

接下来一段时间,我将主要采用 Claude-4-sonnet 作为主力编码模型,特别是在前端开发和设计相关的工作中。随着模型的不断优化,相信这些小问题会逐步得到解决。

如果你也在使用 Claude 4 进行编程,欢迎在评论区分享你的使用体验和发现的问题。让我们一起探索 AI 编程的最佳实践!

Cursor 系列精选阅读

如果你对 Cursor AI 编程感兴趣,可以浏览我的更多专题文章,同时我也会不定期地更新到视频号,欢迎观看和订阅。

🚀 快速上手

💻 开发环境配置

🔌 MCP 工具生态

📝 规范与项目管理

🎨 UI/UX 设计流程

🔬 实战案例


欢迎关注我的公众号"Eric技术圈",原创技术文章第一时间推送。

License:  CC BY 4.0