天堂呦呦成人AV片国产,日韩经典第一页,亚洲欧洲有码无码,国产在线观看黄色入口

<delect id="yho6b"><div id="yho6b"></div></delect>
          <delect id="yho6b"><noframes id="yho6b">
          <label id="yho6b"></label>
          <delect id="yho6b"><div id="yho6b"></div></delect>
              <samp id="yho6b"></samp>
              <delect id="yho6b"></delect>
              <delect id="yho6b"></delect><delect id="yho6b"></delect>
                <delect id="yho6b"></delect>
                  首頁  »  財經(jīng)  »  經(jīng)濟(jì)觀察

                  首個AI高考全卷評測結(jié)果發(fā)布:最高分303,數(shù)學(xué)全不及格

                  2024-06-19 16:07:00

                  來源:第一財經(jīng)

                    高考覆蓋各類學(xué)科及題型,同時因其開考前的“絕密性”,被視作中國最具權(quán)威的考試之一。這一面向人類設(shè)計的高難度綜合性測試,目前普遍被研究者用于考察大模型的智能水平。

                    在前不久高考結(jié)束后,上海人工智能實驗室旗下司南評測體系OpenCompass選取了7個大模型進(jìn)行高考“語數(shù)外”全卷能力測試。6月19日, OpenCompass發(fā)布了首個大模型高考全卷評測結(jié)果。

                    語數(shù)外三科加起來的滿分為420分,此次高考測試結(jié)果顯示,阿里通義千問2-72B排名第一,為303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能實驗室的書生·浦語2.0排名第三,三個大模型的得分率均超過70%。來自法國大模型初創(chuàng)公司的Mistral排名末尾。

                    此次測試的模型分別來自阿里巴巴、零一萬物、智譜AI、上海人工智能實驗室、法國Mistral的開源模型,以及來自O(shè)penAI的閉源模型GPT-4o。實驗室表示,因無法確定閉源模型的更新時間,為公平起見,此次評測沒有納入商用閉源模型,僅引入GPT-4o作為評測參考。這次選擇參與高考的“考生”均在高考前(2024年4月-6月)開源,避免了“刷題風(fēng)險”。

                    從結(jié)果來看,大模型的語文、英語考試水平普遍不錯,但數(shù)學(xué)都不及格,最高分也只有75分,來自書生·浦語2.0,其次是GPT-4o,得分73分。語文最高分是通義千問,英語最高分是GPT-4o。

                    在數(shù)學(xué)方面大模型還有很大的提升空間。數(shù)學(xué)關(guān)乎復(fù)雜推理相關(guān)能力,這是大模型普遍面臨的難題,也是大模型在金融、工業(yè)等要求可靠的場景落地需要的關(guān)鍵能力。

                    上海人工智能實驗室領(lǐng)軍科學(xué)家林達(dá)華此前在采訪中對第一財經(jīng)介紹,復(fù)雜推理關(guān)系到落地應(yīng)用時大模型的可靠性,例如在金融這樣的場景下不能在數(shù)字上有差錯,會對數(shù)學(xué)上的可靠性有較高的要求。另外隨著大模型進(jìn)入商用,若要分析一家公司的財報,甚至是工業(yè)領(lǐng)域要去分析一些技術(shù)文檔,這時數(shù)學(xué)方面的計算能力就會成為一個壁壘。

                    “現(xiàn)在很多大模型的應(yīng)用場景是客服、聊天等等,在聊天場景一本正經(jīng)胡說八道影響不太大,但它很難在非常嚴(yán)肅的商業(yè)場合去落地!绷诌_(dá)華此前表示。

                    對于此次測試細(xì)節(jié),上海人工智能實驗室介紹,評測采用全國新課標(biāo)I卷,“語數(shù)外”三科全卷測試,包括客觀題與主觀題。成績由具備高考評卷經(jīng)驗的老師匿名人工判分,閱卷開始前,閱卷教師未被告知答卷均由模型生成,使閱卷教師完全以面對真實考生的標(biāo)準(zhǔn)評判回答效果。

                    值得注意的是,大模型犯錯誤的方式和人類考生有差異,從實踐上來看閱卷老師們不完全適應(yīng)給大模型評分,因此存在有題目誤判的可能。實驗室表示,每個題目都邀請了至少三位老師評閱取均分,團(tuán)隊對分差較大的題目還進(jìn)行了再次審核,貼近高考真實閱卷標(biāo)準(zhǔn)。

                    實驗室表示,在打分前,老師們并未被告知答案由大模型生成,但由于有的模型會存在完全不理解題意導(dǎo)致亂答、重復(fù)生成、回答更像解析而非解答的問題,老師們在閱卷過程中基本都會和團(tuán)隊確認(rèn)這些情況是否是正常情況,團(tuán)隊會要求老師將離譜的錯誤直接視為答題錯誤,解析類型的回答以是否包含正確解題過程作為唯一準(zhǔn)則。

                    在完成所有大模型答卷的評卷工作后,閱卷教師被告知所評“考生”的真實身份為大模型。研究人員同時邀請各科教師對大模型表現(xiàn)進(jìn)行了整體分析,為模型能力提升策略提供參考。

                    語文方面,老師們認(rèn)為,模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但是不同模型的文言文閱讀理解能力差距較大。大模型作文更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法 。多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”,大模型尚無法完全理解。

                    在數(shù)學(xué)試卷上,老師們發(fā)現(xiàn),大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。大模型的公式記憶能力較強(qiáng),但是無法在解題過程中靈活引用。

                    英語則整體表現(xiàn)良好,但部分模型由于不適應(yīng)題型,在七選五、完形填空等題型得分率較低。大模型英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況,而人類考生多因為字?jǐn)?shù)不夠扣分。

                    此外,一些老師提出,由于全部回答沒有卷面,所以在作文的評判上會存在1-2分的誤差。

                   。ū疚膩碜缘谝回斀(jīng))

                  • 相關(guān)閱讀
                  免責(zé)聲明:本網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類版權(quán)申明,本網(wǎng)站無法鑒別所上傳圖片或文字的知識版權(quán),如果侵犯,請及時通知我們,本網(wǎng)站將在第一時間及時刪除。