两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
{dede:pagebreak/}
广东怀集遇历史最大洪水,18 万人受灾,积水最深处达 3 米,目前当地情况如何?
评价一下Proxmox VE与ESXi的优劣?
为什么日本人口密度这么大还能住一户建,中国只能住楼房?
如何评价熊狼狗的《没钱修什么仙?》?
如何看待黄奇帆称「中国房地产消费的居民负债占家庭收入比重达 137.9% ,需调整抑制消费政策」?
女朋友是体育生是一种什么体验?
怎么在武汉找男朋友?
有什么是你去了上海才知道的事情?
国外(GoDaddy)注册的域名如何在国内备案?
如何评价前端框架 Solid?
如何看待苹果在 WWDC25 发布的 Foundation 模型框架,它将为开发者和用户带来哪些改变?
大家会接受同居过的女生吗?
如何看待人民日报官方微信公众号转载的文章《孩子,我宁愿欠你一个快乐的少年,也不愿看到你卑微的成年》?
你发生过的最尴尬的事是什么?
为什么有的女生喜欢穿紧身牛仔裤?
北京日报点名批评“苏超”过度娱乐化的动机是什么?