向AI下戰帖!大學考試不夠難 科學家廣邀全球出題 獲採用可得最高5000美元
一組科技專家周一 (16 日) 發出全球召集,尋求最具挑戰性的問題,以測試人工智慧 (AI) 系統,因為這些系統在處理流行基準測試時已顯得輕而易舉。
這個名為「人類的最後考試」的項目旨在確定專家級 AI 的到來。根據組織者的說法,這個項目希望在未來幾年內,隨著能力的提升,仍然保持其相關性。該項目由非營利組織人工智慧安全中心(CAIS)和初創公司 Scale AI 共同發起。
此前不久,聊天機器人 ChatGPT 製造商 OpenAI 甫推出強大的 AI 新模型 o1。CAIS 執行董事兼馬斯克 xAI 初創公司顧問 Dan Hendrycks 表示,該模型「摧毀了最受歡迎的推理基準」,例如,傳統的數學和邏輯推理測試,AI 系統在這些測試中通常能輕鬆獲得高分。
Hendrycks 在 2021 年與人合著了兩篇論文,提出了對目前廣泛使用的 AI 系統進行測試的方法,其中一篇測試了美國歷史等大學水準的知識,另一篇則探討了模型通過競賽級數學進行推理的能力。比如,AI 系統在美國歷史的問題上,能否正確回答「獨立宣言是什麼時候簽署的?」這類問題。根據在線 AI 平台 Hugging Face 的數據,這種大學式測試下載量超過了任何類似數據集。
在發表這些論文時,人工智慧幾乎對考試問題給出了隨機答案,但如今情況已大為改變,這些問題已不再困住 AI。例如,AI 實驗室 Anthropic 的 Claude 模型在 2023 年大學水準測試中的得分約為 77%,而一年後幾乎達到了 89%。這顯示出 AI 的進步速度之快。
然而,這些常見基準的意義減少了,因為 AI 的表現已經超過了這些測試的難度。根據斯坦福大學的 AI 指數報告,AI 在涉及計劃制定和視覺模式識別的較少使用測試中表現不佳。例如,OpenAI o1 在一個版本的模式識別 ARC-AGI 測試中得分約為 21%,這表明在這些更具挑戰性的任務中,AI 仍然面臨困難。
一些 AI 研究者認為,這些結果顯示計劃和抽象推理是更好的智力衡量標準。例如,能否從一組數據中推導出未來的趨勢,或是解決複雜的邏輯謎題,都是評估 AI 能力的關鍵。Hendrycks 指出,「人類的最後考試」將專注於這類抽象推理。
業內觀察人士指出,常見基準的答案可能已經出現在用於訓練 AI 系統的數據中。Hendrycks 表示,「人類的最後考試」中的某些問題將保持私密,以確保 AI 系統的回答不是來自記憶。
該考試將包括至少 1000 個來自群眾的問題,截止日期為 11 月 1 日,這些問題對於非專家來說相當困難。例如,可能會問「如何設計一個能有效解決氣候變化的政策?」這類問題將經過同行評審,獲勝的投稿將獲得共同作者資格和高達 5000 美元的獎金,該獎金由 Scale AI 贊助。
Scale 的首席執行官 Alexandr Wang 表示:「我們迫切需要更難的測試來衡量專家級模型的快速進展。」他強調,隨著 AI 技術的迅速發展,現有的測試已經無法充分評估其能力。
一項限制是:組織者希望不包括有關武器的問題,因為有人認為這對 AI 的研究來說過於危險。這項考試的設計意在推動 AI 的負責任發展,確保其在安全的範疇內進行挑戰。
更多鉅亨報導
•AI結合物理原理 Google推出全新天氣預測模型 研究登上Nature
•自家技術未夠班!亞馬遜10月更新Alexa語音助理 採用Anthropic Claude AI模型
相關內容


籲醫界正視醫護人員薪資結構 賴清德:不加薪找不到人
賴清德今天(24日)出席「健康台灣 深耕論壇」活動,針對醫護人力短缺問題直言,健保30年來解決了許多社會需求,卻也衍生結構性挑戰,導致多個醫療科別面臨「找不到人」的困境。他強調
上報 ・ 5 小時前 ・ 發表留言
慈濟歲末感恩高雄企業 共善合作實踐永續共行
慈濟基金會廿三日在高雄靜思堂舉辦「企業共善感謝狀頒發儀式」,邀請大高雄多家在地企業代表齊聚一堂,表彰其長期投入社會關懷、環保永續與人文教育的努力與成果;該活動由慈濟基金會執行長顏博文向各企業代表致意,展現慈濟與企業攜手推動社會向善的決心。歲末年終之際,慈濟攜手企業夥伴感恩及祝福,更是對彼此堅定共善理念、永續共行的具體實踐。(見圖)慈濟基金會今(廿四)日說明,基金會長期致力於推動環保、教育與社會關懷,並積極與企業界合作,將慈濟理念融入企業社會責任的行動。顏博文執行長表示,企業不僅是經濟發展的重要力量,更是推動社會永續轉型的關鍵群體,透過共善行動,希望將慈濟的慈悲理念與企業的資源整合,擴大正向社會影響力,讓幸福不只是口號,而是可實踐的行動。顏執行長強調,慈濟與企業的合作不僅是 ...
台灣新生報 ・ 8 小時前 ・ 發表留言
在野推不在籍投票 內政部反對原因全說了:易造成選務混亂
民眾黨立院黨團推動不在籍投票法立法,立法院內政委員會26日將舉行公聽會。內政部指出,不在籍投票選務作業高度複雜,極易造成選務混亂,據中央選舉委員會統計,地方選舉涉及多達8896種選舉票的移轉,選務作業高度複雜,極易造成選務混亂。此外,不在籍投票會衍生投票秘密無法維護及境外敵對勢力介選等問題。
中時新聞網 ・ 9 小時前 ・ 發表留言
藍白北市議員激戰恐分票? 蔣萬安:專注市政、聆聽地方
王世堅撇清說,他不會選台北市長,而 現任的台北市長 蔣萬安,拚連任,特地 與里長 面對面 座談,到大安區 報告施政成績,針對藍營有北市議員,擔心跟民眾黨新人 競爭,如果蔣萬安 又去幫忙站台,會瓜分選票,蔣萬安 則說,距離選舉還有時間,先專注市政。 #藍白北市議員#蔣萬安#市政
東森新聞影音 ・ 1 天前 ・ 發表留言
靈巖山寺淨心慈善 捐善款及食物箱關懷南投弱勢
【記者林玉芬/南投報導】臺灣靈巖山寺暨財團法人佛教淨心慈善基金會,22日捐贈南投縣低收及中低收入戶獨居長者320份愛心食物箱,由縣長許淑華及12個獨居老人服務單位代表受贈。 臺灣靈巖山寺暨佛...
自立晚報 ・ 1 天前 ・ 發表留言
史上最大量縮潮 10大建商總銷「蒸發逾2000億」
【記者柯安聰台北報導】房市冷颼颼,建商也冷靜。根據591新建案統計,2025年全台10大建商依序為寶佳、華固、興富發、國城、元利、茂德、新潤、愛山林、長虹、漢皇,總銷金額合計約5329億元,不僅較前年...
自立晚報 ・ 1 天前 ・ 發表留言
2026春節禮盒怎麼選?果香甜點、收藏級酒款一次盤點
2026春節禮盒1.大苑子大苑子攜手吳寶春麥方店,推出全新聯名新年禮盒「冠軍荔枝玫瑰禮盒」。本次聯名結合台灣在地水果選材與世界冠軍烘焙工藝,禮盒內容包含「荔枝玫瑰酥」3入與「荔枝玫瑰米香」7入,將台灣荔枝的果香特色,結合玫瑰的優雅香氣,打造兼具年節氛圍與現代感的...
styletc ・ 1 天前 ・ 發表留言
卡尼演說嗆美獲滿堂彩!川普怒撤加拿大和平理事會邀請
美國總統川普於當地時間22日撤回加拿大加入和平理事會(Board of Peace)的邀請,此舉發生在加拿大總理卡尼(Mark Carney)於世界經濟論壇批評強權國家利用經濟整合作為武器後。川普在自家社群平台Truth Social上發文表示,和平理事會正式撤回對加拿大的邀請。
中天新聞網 ・ 1 天前 ・ 2則留言
SIM卡煉出200克黃金!「提煉過程」完整曝光
國際中心/楊佩怡報導近日,中國廣東1名男子利用大量SIM卡晶片廢料,經加工成功提煉出191.73克黃金,價值高達12萬元人民幣(約新台幣50萬元),事後他還在自己的社群帳號上,發布了整個「提煉過程」,影片曝光後引發中國網友們驚呼「當代煉金術,這也太強了吧!」,甚至還有人想要效仿他的煉金術。
民視 ・ 12 小時前 ・ 發表留言

龜山資收車撞垃圾車1死6傷!他自己倒垃圾 幫媽媽擋下一劫
龜山資源回收車事故造成1死6傷,最年輕的傷者、31歲呂姓男子送林口長庚醫院,今早出院。檢察官王映荃下午到桃園市立殯儀館相驗時,也傳喚呂男到場說明。呂男受訪說,平常都是媽媽出門倒垃圾,由於他房間垃圾一個月沒清,不好意思麻煩媽媽,雖然受了一些傷害,但也算幫媽媽擋了個劫。
自由時報 ・ 3 小時前 ・ 發表留言
熊本縣警公開阿蘇墜機最新影像!地形險惡搜救難 2台人生死未卜「明又有寒流」
日本熊本縣阿蘇山20日發生觀光直升機墜毀事故,熊本縣警今(23日)公開了最新的搜救畫面。該架隸屬於阿蘇市「阿蘇卡德利動物樂園」的遊覽直升機,目前被發現以嚴重損毀的狀態卡在阿蘇山中岳第一火山口內。機上搭載1名64歲男性駕駛員,以及2名來自台灣的夫妻遊客(41歲男性與36歲女性),這3人至今生死未卜。
鏡週刊Mirror Media ・ 1 天前 ・ 1則留言
「性商教母」周媛帳號遭封殺!靠賣低俗課程吸金1億 女學員數萬人
「中國性商教母」網紅周媛近日在社群平台上爆紅,只見她在線下授課時「眼神給出去」、「眼神拉絲」、「身體呈X形」、「是不是靈動了」等言論的視頻,被許多網友模仿玩梗,近日傳出她靠賣「黑白顛周媛」付費課收入已超過人民幣2400萬(約新台幣1億900萬),不過也引發低俗、物化女性巨大爭議,22日主帳號已被封殺。
三立新聞網 setn.com ・ 1 天前 ・ 3則留言
澤倫斯基達沃斯演說全文》不滿台灣「助普京為虐」,抨擊歐洲說一套做一套、吐槽北約就是紙老虎
繼美國總統川普(Donald Trump)前往瑞士達沃斯(Davos),站在世界經濟論壇(WEF)舞台上,向全世界講述自己的豐功偉業,同時抨擊歐洲國家之後,這個舞台迎來第二位砲轟歐洲的國家元首:烏克蘭總統澤倫斯基(Volodymyr Zelenskyy)。澤倫斯基在世界經濟論壇發表長篇演說,雖然他先向美國、歐盟(EU)與北約(NATO)盟友致上感謝,但話鋒......
風傳媒 ・ 1 天前 ・ 4則留言
新片超狂!巨石強森「重擊人生」撕標籤 邵雨薇「啵me」演女鬼|#鏡新聞
一起來看本週新片,題材相當多元,電影情感的價值,呈現父女感情裂痕,在歐洲電影獎橫掃六大獎項。國片啵me之我的青春住了鬼,找來邵雨薇和初孟軒搭檔,上演人鬼戀。而好萊塢巨星巨石強森,則在電影重擊人生中,飾演滿身傷痕的格鬥王者。
鏡新聞 ・ 10 小時前 ・ 發表留言
轎車沒油停路中央 駕駛不滿警方拉車門雙方爆爭執
地方中心/賴國彬 桃園報導桃園市八德區警方,深夜行經廣福路巡邏,發現一輛小客車,違停路中央,警方上前舉發,駕駛疑似不滿員警,拉他車門,堅持要他下車才開單,雙方爆發口角,當事人認為自己只是車子沒油,拋錨在路上,警方做法,讓他無法理解,但網友認為警察按照標準流程,反而是駕駛問題較大。「警方vs.劉姓駕駛。」違停男子下車,頻頻道歉,發現警察不予理會,開始越講越大聲。「警方vs.劉姓駕駛。」警察對於駕駛,不斷大小聲,持續溝通理論,眼見對方越靠越近,用手一擋,雙方再爆口角。「警方vs.劉姓駕駛。」事發在桃園市八德區廣福路上,一輛黑色轎車違停路中央,原來是車子沒油拋錨,員警上前了解,駕駛第一時間,似乎打算移車,卻在這時候,出現第一波口角。男子一度嗆警流氓 雙方爆發激烈爭執(圖/民視新聞)質疑警方強制開門,堅持要駕駛下車才開單,讓駕駛無法理解,爭執聲越吼越大,但網友不領情,認為警方按照標準作業流程,熄火下車,沒毛病。八德分局高明派出所所長蔡易廷表示「駕駛劉男稱因車輛沒油造成故障,經警方查證劉男身分,未發現違禁品,現場依規定舉發違規,命其儘速排除駛離。」警方查證劉姓駕駛身分 未發現違禁品依規定舉發開單後命其駛離(圖/民視新聞)警方針對劉姓男子盤查,開出違停罰單後,要求男子把車開走,雙方各自解散,因為車輛拋錨被開單,駕駛火氣不小。《民視新聞網》提醒您:「任何人在依法被判決有罪確定前,均應推定為無罪」原文出處:轎車沒油停路中央 駕駛不滿警方拉車門雙方爆爭執 更多民視新聞報導轎車"擋社區停車場前"半小時 警經過處理"沒開單"惹議誇張! 拖吊途中撕封條上車 男謊稱在車上睡覺罪加一等違停紅燈竟扯出毒駕案! 警眼尖攔查起出海洛因送辦
民視影音 ・ 5 小時前 ・ 發表留言
美國飲食指南「倒金字塔」大顛覆!紅肉真的解禁了?到底該怎麼吃?實用撇步一起看
最新《2025-2030 美國飲食指南》近日發表,將過去30年大家熟知的正金字塔翻轉成「倒金字塔」,強調蛋白質與蔬果的重要性,大大顛覆傳統觀念。不過,要了解這份飲食指南,不只是看圖就好,也要搭配文字描述,「魔鬼藏在細節裡」,本文帶您一次拆解。
太報 ・ 16 小時前 ・ 發表留言
ICE明州逮捕5歲童 要他「當誘餌」敲門確認有無其他人在家
明尼蘇達州哥倫比亞高地公立學校(Columbia Heights Public Schools)表示,美國移民及海關執法...
世界日報World Journal ・ 1 天前 ・ 發表留言
冷掉的暖暖包怎麼丟?官方公布「正確去處」 一堆人都丟錯
這幾天真的太「凍」未條了,手裡沒有握著一個暖暖包真的出不了門啊! 等到它不再發熱時,請務必記得它正確的去處! 新北i環保提醒,暖暖包為「一般垃圾」,請直接裝入專用垃圾袋,交給循線垃圾車即可。而冷掉的暖暖包其實還有剩餘價值,因為內含活性碳,可以先放在衣櫃或鞋櫃,幫忙除臭、除濕,增加利用價值,一點都不浪費! 舊電毯裡面有電線,要丟回收還是垃圾車? 此外,天氣變冷,很多人都準備換新電毯,那舊的該怎麼辦?對此,新北i環保指出,它主要由多種複合材質緊密結合而成,所以被歸類在一般垃圾!確定電毯冷卻後,直接裝進專用垃圾袋,並交給循線垃圾車。不過,要注意的是,如果電毯大到塞不下25公升專用垃圾袋,可以直接捆起來交給垃圾車就好。 (記者吳珮均、圖片來源:motionelements)延伸閱讀: ·白用又浪費!專家示警「暖暖包2用法超雷」 一堆人不知不覺秒中 ·棉被、枕頭、娃娃怎麼丟?環保局公布正解 網傻眼:完全不知道
常春月刊 ・ 1 天前 ・ 1則留言