女子初尝黑人巨嗷嗷叫_亚洲JLZZJLZZ少妇_妈妈的朋友1在线观看_久久精品色妇熟妇丰满人妻5O

關注公眾號

關注公眾號

手機掃碼查看

手機查看

喜歡作者

打賞方式

微信支付微信支付
支付寶支付支付寶支付
×

硬剛“GPT-4”,谷歌重磅推出最強殺手锏“Gemini”

2023.12.07

  12月6日,谷歌宣布推出其認為規模最大、功能最強大的人工智能模型Gemini。Gemini將包括三種不同的套件:Gemini Ultra,Gemini Pro和Gemini Nano。

官方宣文中,概括出這三種套件的突出特性:

  Gemini Ultra——參數量最大,能力最強,適用于高度復雜的任務。

  Gemini Pro——可擴展至各種任務的模型。

  Gemini Nano——高效的設備端任務模型。

  在模型能力方面,谷歌稱Gemini Ultra的性能在大型語言模型(LLM)研發中使用的 32 個廣泛使用的學術基準中的 30 個超過了當前最先進的結果。

  Gemini被谷歌CEO Sundar Pichai稱為“谷歌迄今為止最大、能力最強的AI模型”

  Google DeepMind領頭人Demis Hassabis興奮宣布:「我們團隊的成就讓我感到無比自豪。對我和許多同事而言,通用人工智能(AGI)是終身追求。我堅信,只要用正確的方式加以應用,AI將成為史上最具變革力、最有價值的技術之一。Gemini AI正是向這個愿景邁出的重要一步。」

  Gemini在MMLU基準測試中超越人類專家,得分率超過 90%。

  大型語言模型(LLM)的主流評測數據集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于評估模型在語言理解、推理、閱讀理解和常識推理等方面的能力。

  MMLU(大規模多任務語言理解)是一個結合了數學、物理、歷史、法律、醫學和倫理學等57個科目的測試集。相比于其他測試集,MMLU的廣泛性和深度更強,它通過大量和多樣的任務來測試AI模型在理解自然語言方面的能力,特別是在復雜和多變的真實世界場景中的表現。這使得MMLU成為一個極具挑戰性的評測框架,可以全面地評估和推動大型語言模型的發展。

446158_202312071110552.jpg

  全方位超越GPT?

  Gemini(雙子座)號稱在MMLU測試集上,拿32-shot的思維鏈CoT結果干翻了5-shot的GPT-4?

446158_202312071110553.jpg

  在技術報告里也明清標明了同等五樣本(5-shot)下的性能測試數據:我們看到的事實是gemini仍舊落后GPT-4近3個百分點!

  在關鍵的性能測試項-大規模多任務語言理解MMLU,宣傳上使用了一個很夸張的斜率曲線,號稱gemini以90%大幅領先GPT-4的86.4%(下圖左側曲線):

446158_202312071110554.jpg

  JeffDean解釋,這個數據實際上是為了顯示google的CoT方法先進性:“我們認為,讓社區了解我們開發的新 CoT 方法并進行比較,是一件很有意思的事情。”

推薦
關閉