威爾斯親王
|
2024-7-24 15:39:40
|
繼OpenAI突然上線一款「小模型」GPT-4o mini之後,Meta決定拋出其超大參數的大模型炸場。
7月24日,Meta發布了開源大模型系列Llama 3.1 405B,以及升級後的70B和8B兩個尺寸模型。
Llama 3.1 405B被認為是目前最強的開源大模型。根據Meta公佈的信息,該模型上下文長度支持128K,增加了對八種語言的支持,在通用知識、可操控性、數學、工具使用和多語言翻譯等方面能夠與GPT-4o和Claude 3.5 sonnet等旗艦模型相媲美,甚至在人工評估(Human Evaluation)的比較中,其整體表現比這兩個模型更好。
同時,8B和70B兩個型號的升級版本也是多語言的,並且都拓展到了128K上下文長度。
Llama 3.1 405B是Meta迄今為止最大的模型。 Meta表示,該模型的訓練涉及超過15兆tokens,為了在合理時間內達到理想效果,團隊優化了整個訓練堆棧,使用了超過16000個H100 GPU——這也是第一個在如此大規模算力下完成訓練的Llama模型。
這個艱難的訓練目標被團隊拆分為多個關鍵步驟。為了最大程度確保訓練穩定性,Meta並沒有選擇MoE架構(混合專家架構),而是採用了標準僅解碼器的Transformer模型架構進行小幅調整。
根據Meta介紹,團隊也使用了叠代的後訓練過程,對每一輪進行監督微調和直接偏好優化,為每個回合創建最高品質的合成數據,以提高每種能力的性能。與先前版本的Llama相比,團隊提升並改進了用於訓練前、後的資料數量和品質。
在Llama 3.1 405B炸場的同時,馬克·祖克柏發表了一篇題為「開源AI是前進的道路」的宣言,再次強調開源大模型的意義與價值,劍鋒直指OpenAI等走上閉源路線的大模型公司。
祖克柏重提開源Linux與閉源Unix的故事,認為前者支援更多功能和更廣泛的生態系統,並且是雲端運算和運行大多數行動裝置作業系統的行業標準基礎。 “我相信人工智慧也會以類似的方式發展。”
他指出,幾家科技公司正在開發領先的閉源大模型,但開源大模型正在迅速縮小這一差距。最直接的證據是,Llama 2此前只能與落後的老一代模型相比,但Llama 3已經可與最新模型相提並論,並在某些領域獲得領先。
他預計,從明年開始,Llama 3就能成為業界最先進的模式——而在此之前,Llama已經在開放性、可修改性和成本效率方面處於領先地位。
祖克柏引用了許多理由闡述為什麼這個世界需要開源模型,稱對開發者而言,除了更透明的開發環境以更好訓練、微調和提煉他們自己的模型,另一個重要因素是「需要一種既高效又負擔得起的模式」。
他解釋道,對於使用者和離線的推理任務,開發人員可以在自己的基礎設施上運行Llama 3.1 405B,成本大約是GPT- 4o等閉源模型的50%。
圍繞開源、閉源兩大路線之爭,此前業界已有過多番討論,但當時的主要基調在於,兩者各有價值,開源能夠以高性價比的方式惠及廣大開發者,並且有利於大語言模型本身的技術叠代與發展,而閉源能夠集中資源更快、更深突破性能瓶頸,比開源更有望率先達成AGI(通用人工智慧)。
換句話說,業界普遍認為,在模型的效能水準上,開源很難追上閉源。而Llama 3.1 405B的出現或許會讓產業重新思考這個結論,很可能將影響一大批已經傾向於使用閉源模型服務的企業和開發者群體。
目前,Meta的生態圈已經非常龐大。 Llama 3.1模型上線後,超過25個合作夥伴將提供相關服務,包括亞馬遜AWS、英偉達、Databricks、Groq、戴爾、微軟Azure和谷歌雲端等。
只是祖克柏對於Llama系列模型處於領先地位的預期是明年,不排除中間有再被閉源模型掀翻屋頂的可能。在此期間,外界可能會紛紛關注到那些效能水準趕不上Llama 3.1 405B的閉源大模型,它們目前的處境的確有些尷尬。
他也特別談到中國與美國在大模型領域的競爭,認為美國在這方面永遠領先中國數年是不切實際的。但即使是幾個月的微小領先,也會隨著時間的推移而“積少成多”,從而使美國獲得“明顯優勢”。
“美國的優勢是去中心化和開放式創新。有些人認為,我們必須封閉我們的模式,以防止中國獲得這些模式,但我認為這行不通,只會讓美國及其盟友處於不利地位。”在祖克柏看來,一個只有封閉模式的世界,會導致少數大公司和地緣政治對手能夠獲得領先的模式,而新創公司、大學和小型企業則錯失機會。此外,將美國創新限制在封閉開發中,增加了完全無法領先的可能性。
「相反,我認為我們最好的策略是建立一個強大的開放生態系統,讓我們的領先公司與政府和盟友密切合作,以確保他們能夠最好地利用最新進展,並在長期內實現可持續的先發優勢。 |
評分
-
總評分: 名聲 + 6
金幣 + 6
查看全部評分
|
免責聲明:本文所載資料僅供參考,本人對該資料或使用該資料所導致的結果概不承擔任何責任.本人已盡告知讀者之義務!,且並無意違反兒童及少年性剝削防制條例第40條所稱『以宣傳品、出版品、廣播、電視、電信、網際網路或其他方法,散布、傳送、刊登或張貼足以引誘、媒介、暗示或其他使兒童或少年有遭受第二條第一項第一款至第三款之虞之訊息』請讀者自重!本文為網路創作,與現實之人事物無關,內容如與現實雷同,純屬巧合!以上純屬夢境,一切都是假的,假如你以為是真的,建議去檢查視力,你眼睛業障太重