了解最新公司動態(tài)及行業(yè)資訊
眾所周知,自2020年起,微軟與微軟就獨(dú)家獲取GPT-3源代碼達(dá)成協(xié)議,GPT-3的模型代碼不再對外公開(GPT-1和GPT- 2 個(gè)是開源項(xiàng)目)
出于對科技巨頭霸權(quán)的“反抗”,成立了由研究人員、工程師和開發(fā)者志愿者組成的計(jì)算機(jī)科學(xué)家協(xié)會,打破了微軟和Open AI在大規(guī)模NLP模型上的壟斷,取得了不錯(cuò)的成績。
這個(gè)協(xié)會是電子商務(wù)。
以古羅馬自由女神之名,流露出對巨人的蔑視與反抗。
與擁有 1750 億個(gè)參數(shù)的 GPT-3 相比,GPT-NeoX-20B 的參數(shù)顯然微不足道。 但是,為這一成就感到自豪。 為什么?
1 來源
首先介紹一下發(fā)展歷程。
長期以來,人工智能威脅論一直是熱門話題。 霍金在《獨(dú)立報(bào)》中表達(dá)了人工智能的威脅。 “人工智能的短期影響取決于誰控制它,而長期影響取決于它能否被控制?!? “
成立于2020年7月,主要發(fā)起人是一群號稱自學(xué)成才的黑客,主要領(lǐng)導(dǎo)是Leahy、Leo Gao和Sid Black。
當(dāng)時(shí),微軟與 簽署了 GPT-3 訪問控制協(xié)議。 聽到風(fēng)聲,反叛的極客開始在(社交媒體平臺)上說:“讓我們來上一課吧!” “
因此,他們希望在建立的基礎(chǔ)上,建立一個(gè)可以媲美GPT-3的機(jī)器學(xué)習(xí)模型。
創(chuàng)始人 Leahy 在接受 IEEE 采訪時(shí)表示。
“它開始是一個(gè)非常有趣的愛好,但當(dāng)瘟疫關(guān)閉這座城市時(shí),我們無法做得更好。它很快就變成了一種魅力?!? “
“我們認(rèn)為自己是過去幾十年經(jīng)典黑客文化的后代,但出于好奇和對挑戰(zhàn)的熱愛,我們在新領(lǐng)域嘗試技術(shù)?!? “
該服務(wù)器目前有大約 10,000 名成員,但只有大約 100 或 200 名定期活躍,并且 10 到 20 人的團(tuán)隊(duì)正在開發(fā)新模型。 自成立以來,其研究團(tuán)隊(duì)首先開源了基于GPT-3的60億參數(shù)的NLP模型GPT-J,并于2021年3月發(fā)布了27億參數(shù)的模型GPT-Neo級別,可以說是發(fā)展迅猛。
今年2月9日,他們與Core 合作發(fā)布了GPT-Neo的升級版——GPT-NeoX-20B。 官方代碼地址如下it技術(shù)工程師,目前可以在天眼之眼公開下載。
代碼地址:/
它也是目前最大的可公開訪問的預(yù)訓(xùn)練通用自回歸語言模型。
在發(fā)布聲明中,Leahy 特別標(biāo)記了“標(biāo)準(zhǔn)語言建模任務(wù)的正確性”和“通過評估衡量的主題組事實(shí)知識的零樣本正確性”。
2 GPT-NeoX-20B的優(yōu)勢:免費(fèi)、開放
簡而言之,GPT-NeoX-20B 是一個(gè)具有 200 億參數(shù)、預(yù)訓(xùn)練、通用和自回歸的大規(guī)模語言模型。
如果您不知道它是什么,請考慮 GPT-3。 這是近兩年前震驚世界的大型語言模型,其語言能力浩瀚無邊。 文章可以簡單地通過編寫計(jì)算機(jī)代碼、寫詩、生成具有權(quán)威色彩、風(fēng)格難以區(qū)分的假新聞,甚至給出標(biāo)題和句子來生成。 那是因?yàn)榭梢愿鶕?jù)非常少的輸入信息自己“創(chuàng)建”它。 另外,你創(chuàng)造的東西也可以寫成文章(題外話:就像漫威機(jī)器人賈維斯一樣)
必須承認(rèn),該模型大于 1750 億個(gè)參數(shù)(模型中編碼信息的節(jié)點(diǎn)或數(shù)字)。 參數(shù)越多,模型就越“聰明”,因?yàn)樗蘸头纸獾男畔⒏唷?/p>
但是,它是世界上同類產(chǎn)品中最強(qiáng)大的模型,并且可以免費(fèi)公開獲取。
“我們希望更多的安全研究人員能夠使用這項(xiàng)技術(shù),”Leahy 說。
此外,它不同于訓(xùn)練大規(guī)模模型所需的計(jì)算能力。
GPT-3 在未知數(shù)量的 V100 核心 GPU 上進(jìn)行了訓(xùn)練。 合作伙伴 隨后開發(fā)了一個(gè)用于訓(xùn)練大型模型的單一系統(tǒng),該系統(tǒng)具有多個(gè) CPU 內(nèi)核、10,000 個(gè) GPU 和 400 Gb/s 的網(wǎng)絡(luò)連接。 這并沒有阻止反 GPT-3 壟斷的承諾。 他們最初使用谷歌提供的硬件作為其 TPU 研究云計(jì)劃的一部分構(gòu)建了 GPT-J,這是一種具有 60 億個(gè)參數(shù)的大型語言模型。 對于 GPT-NeoX-20B,該小組得到了一家致力于基于 GPU 的工作負(fù)載的云服務(wù)提供商的支持。
它被稱為人工智能非營利組織,但目前其本質(zhì)是一個(gè)由科技公司主導(dǎo)的私人模式。
數(shù)學(xué)家和人工智能研究人員告訴 IEEE:
“這些私人模型限制了我們這些獨(dú)立研究人員可以訪問的內(nèi)容。如果我們不知道它是如何工作的,科學(xué)家、倫理學(xué)家和整個(gè)社會就無法就如何將這項(xiàng)技術(shù)應(yīng)用到我們的生活中進(jìn)行必要的對話?!? . “”
他的工作推動了大規(guī)模語言模型的可描述性、安全性、倫理學(xué)等方面的研究it技術(shù)工程師,得到了外界的肯定。
機(jī)器學(xué)習(xí)安全領(lǐng)域的關(guān)鍵人物倪教授在最近的一篇論文中表示:“如果沒有 The Pile 數(shù)據(jù)集及其 GPT-Neo 系列模型的全面公開,我們的研究就無法實(shí)現(xiàn)。” Pile 數(shù)據(jù)集是一個(gè) 825 GB 的英文文本語料庫,用于訓(xùn)練大型語言模型。
文/瀾夢IT外包
24小時(shí)免費(fèi)咨詢
請輸入您的聯(lián)系電話,座機(jī)請加區(qū)號