OpenAI 最新发布 GDPval 基准测试,旨在全面评估 AI 在九大关键行业的 44 个职业领域与人类专家的表现差异。这一创新测试不仅揭示了当前 AI 技术的潜力,也为未来行业应用提供了重要参考。结果显示,GPT-5-high 在专业能力评估中,达到或超越人类专家水平的概率高达 40.6%,而 Anthropic 公司的 Claude Opus 4.1 则以 49% 的得分表现突出。值得注意的是,OpenAI 在分析中特别指出,Claude 的高分可能与其先进的图形处理能力密切相关。
尽管 OpenAI 首席经济学家坦言当前 AI 技术仍存在明显局限性,但这一系列数据有力证明 AI 在处理日常任务方面已展现出巨大潜力。专家认为,随着技术的持续迭代,AI 将逐步成为专业人士的得力助手,从而让人类能够更专注于创造性、战略性的高价值工作。与 15 个月前 GPT-4o 的 13.7% 得分相比,GDPval 测试的进步显著,标志着 AI 在专业领域应用能力的实质性提升。
这一成果不仅为 AI 技术的进一步发展指明了方向,也为各行业应对数字化转型提供了新思路。通过精准评估 AI 在不同职业场景的表现,企业可以更科学地制定智能化转型策略,实现人机协同的高效工作模式。随着 AI 能力的持续增强,未来将有更多行业受益于这一技术变革,推动整个社会生产力的跃迁。