昨天OpenAI发布的o3惊人震惊。 FrontierMath,由60多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理方面的能力。所有题目都是原创的且从来没有发布过。之前GPT-4 和 Gemini 1.5 Pro这种模型成功功率不足2%,而这一次,o3直接达到了25.2,接近人类顶尖数学家水平。 ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。从0% ...