中国最尴尬文科专业,又卷又穷,教育,高校 ...
当你听说某个AI模型在数学考试中得了满分时,可能会觉得人工智能的数学能力已经超越人类了。然而真实情况远比这复杂。最近这项来自腾讯和中国人民大学的研究揭示了一个令人深思的现象:当我们用真正的前沿数学研究来测试这些AI时,即便是最先进的模型也会暴露出巨大的能力短板。 研究团队开发了一个名为EternalMath的测试系统,它的特别之处在于能够自动从最新发表的数学论文中提取问题。这就好比给AI出题的老师 ...
以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至 77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。
机器之心发布当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward,optimizer step ...