FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造,参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。
如果不看OpenAI这场风波,FrontierMath是一套含金量非常高的测试基准,由全球六十余位数学家联手命题,包括教授、IMO命题人、菲尔兹奖获得者,其中就有大牛陶哲轩等人。
OpenAI 也完全支持我们维护一个单独的、未公开保留的数据集的决定,这是一种额外的保护措施,可以防止过度拟合并确保准确的进度测量。自最初设计之时起,FrontierMath 就被定位并展示为一种评估工具,我们相信这些安排反映了这一目的。
OpenAI正在内部测试其全新「Operator」功能,标志着AI即将从被动助手转变为主动解决问题的超级智能体。预计这些智能体能独立完成从软件开发到复杂财务分析等任务,革命性地替代人类在多个领域的工作。
快科技1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。
又爆大瓜!FrontierMath的o3惊人表现,竟是因OpenAI资助了Epoch AI而提前获得大部分试题访问权。OpenAI模型的性能究竟几分是真,几分炒作,愈来愈变得扑朔迷离。
另一位联合创始人 Joe Betts-LaCroix ,在加州理工期间首次阐明了蛋白质中电子隧道速率的控制因素,成果登上Science,Joe还 在YC担任过2.5年的兼职合伙人(伏笔) ,指导和投资了众多生物初创公司。
IT之家 1 月 20 日消息,科技媒体 TechCrunch 昨日(1 月 19 日)发布博文,报道称 Epoch AI 因未及时披露 OpenAI 的资助而引发争议, 其开发的数学基准测试 FrontierMath 的客观性受到质疑。
IT之家 1 月 20 日消息,幻方量化旗下 AI 公司深度求索(DeepSeek)今日正式发布 DeepSeek-R1 模型,并同步开源模型权重。 据官方介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下 ...
Epoch AI 副主任 Tamay Besiroglu 在回应时表示,虽然他们在 o3 发布前受限于合同不能透露这一合作,但他承认 未能及时公开相关信息,影响了透明度 。他强调,尽管如此,FrontierMath 的 完整性没有被破坏 ,未来将更加注重与贡献者的沟通。
近日,OpenAI 的 CEO 山姆・奥特曼在社交媒体上透露,备受期待的 o3-mini 将在几周内正式发布。这一消息让众多关注人工智能发展的用户感到兴奋。o3-mini 作为大模型的蒸馏版,将同时推出 API 和网页端,进一步满足用户的需求。
OpenAI 宣布推出其首个专注于生物数据的人工智能模型 ——GPT-4b micro,旨在帮助人类延长寿命,目标是让人类多活10年。根据 MIT 科技评论的报道,这一模型不仅为生物医学研究提供了新的视角,还可能引领意想不到的科学发现。