色综合久久天天综线观看-色综合久久天天综合绕观看-色综合久久天天综合观看-色综合久久天天综合-色综合久久手机在线-色综合久久久久综合体桃花网

行業(yè)門戶
NEWS CENTRE
首頁
>
新聞中心
>
AI世界的新難題:互聯(lián)網(wǎng)的信息不夠用了!
AI世界的新難題:互聯(lián)網(wǎng)的信息不夠用了!
2024-04-02 閱讀:316

來源:硬AI

高質(zhì)量數(shù)據(jù)的緊缺正成為AI發(fā)展的重要障礙。

4月1日,據(jù)媒體報道,隨著OpenAI、Google等企業(yè)不斷深入發(fā)展AI技術(shù),科技巨頭們遇到了一個新問題:現(xiàn)有的互聯(lián)網(wǎng)信息量可能不足以支撐他們訓(xùn)練更先進(jìn)的AI系統(tǒng)。

科技巨頭的AI系統(tǒng),比如能與人類聊天的ChatGPT,是通過學(xué)習(xí)網(wǎng)上的信息變得越來越聰明的。但現(xiàn)在,高質(zhì)量、有用的信息日益緊缺,同時,一些網(wǎng)站開始限制AI公司訪問他們的數(shù)據(jù)。據(jù)業(yè)界一些高管和研究人員表示,AI行業(yè)對高質(zhì)量文本數(shù)據(jù)的需求可能在兩年內(nèi)超過供應(yīng)這將可能減緩AI技術(shù)的發(fā)展速度。

面對信息不足的問題,AI公司正在嘗試各種方法來尋找新的信息源。比如OpenAI正在考慮用YouTube視頻里的對話來訓(xùn)練它們的下一代智能模型GPT-5。有的公司甚至創(chuàng)造合成數(shù)據(jù)來學(xué)習(xí),盡管這種方法被許多研究人員認(rèn)為可能會導(dǎo)致系統(tǒng)發(fā)生嚴(yán)重故障,但不失為克服數(shù)據(jù)短缺的一種潛在途徑。

據(jù)悉,這些努力大多保密進(jìn)行,因為找到有效的解決方案可能成為企業(yè)在激烈競爭中的關(guān)鍵優(yōu)勢。隨著數(shù)據(jù)需求不斷增長,找到新的學(xué)習(xí)材料、與數(shù)據(jù)所有者的合作,讓AI系統(tǒng)變得更加聰明,就成了這個行業(yè)的重要備戰(zhàn)區(qū)。

OpenAI的GPT-5面臨10萬億到20萬億tokens的數(shù)據(jù)短缺

AI語言模型的構(gòu)建依賴于從互聯(lián)網(wǎng)上收集的大量文本數(shù)據(jù),這些數(shù)據(jù)包括科學(xué)研究、新聞文章、維基百科條目等。這些材料被分解成“tokens”,tokens可以是完整的單詞或單詞的一部分。AI模型通過分析和理解這些tokens之間的關(guān)系和模式,學(xué)會了如何生成流暢、自然的語言,從而能夠回答問題、撰寫文章甚至創(chuàng)作詩歌。

模型的能力在很大程度上取決于它訓(xùn)練的數(shù)據(jù)量。通常情況下,數(shù)據(jù)越多,模型的性能就越好,因為它有更多的例子來學(xué)習(xí)不同的語言用法和復(fù)雜性。

OpenAI通過為其GPT系列模型提供海量訓(xùn)練數(shù)據(jù),不斷提升性能,借此成為世界頂尖AI公司。這展示了大數(shù)據(jù)訓(xùn)練對于AI發(fā)展的重要性。

但是,隨著GPT-4模型的不斷擴(kuò)大,OpenAI對數(shù)據(jù)的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計,GPT-4訓(xùn)練涉及的數(shù)據(jù)量高達(dá)12萬億tokens,而未來模型,如GPT-5,可能需要60萬億到100萬億tokens。因此,即便是利用所有可用的高質(zhì)量語言和圖像數(shù)據(jù),研發(fā)GPT-5仍可能面臨10萬億到20萬億tokens的數(shù)據(jù)短缺。至于如何彌補(bǔ)這一巨大的數(shù)據(jù)缺口,目前尚無明確方案。

據(jù)媒體報道,為應(yīng)對數(shù)據(jù)短缺挑戰(zhàn),AI公司正在嘗試各種方法來尋找新的信息源。Meta創(chuàng)始人扎克伯格近期強(qiáng)調(diào),公司通過Facebook和Instagram等平臺擁有的大量數(shù)據(jù),為其AI研發(fā)提供了重要優(yōu)勢。扎克伯格表示,Meta能夠利用網(wǎng)絡(luò)上數(shù)以百億計的公開共享圖片和視頻,這些數(shù)據(jù)的規(guī)模超過了大多數(shù)常用數(shù)據(jù)集,盡管其中高質(zhì)量數(shù)據(jù)的比例尚不明確。

而OpenAI則考慮使用其自動語音識別工具Whisper轉(zhuǎn)錄的高質(zhì)量視頻和音頻示例。此外,OpenAI還在考慮建立一個數(shù)據(jù)市場,以評估每個數(shù)據(jù)點對模型訓(xùn)練的貢獻(xiàn)并據(jù)此向內(nèi)容提供者支付費用,這一創(chuàng)新想法也引起了Google的關(guān)注。

Epoch研究所預(yù)測AI數(shù)據(jù)短缺危機(jī)將推遲至2028年

兩年前,Villalobos和他的同事寫道,到2024年年中,對高質(zhì)量數(shù)據(jù)的需求超過供給的可能性為50%,到2026年發(fā)生這種情況的可能性為90%。自那以后,他們變得更加樂觀,在AI研究員Pablo Villalobos及其團(tuán)隊的審慎評估下,新的預(yù)期顯示,這種短缺風(fēng)險將延遲至2028年。

這項樂觀的更新基于對當(dāng)前數(shù)據(jù)質(zhì)量和可用性的深刻洞察。Villalobos指出,互聯(lián)網(wǎng)上的絕大多數(shù)數(shù)據(jù)并不適合作為AI訓(xùn)練材料。在無盡的信息流中,只有一小部分?jǐn)?shù)據(jù)(遠(yuǎn)低于先前預(yù)計)能對AI模型的增長和發(fā)展做出實質(zhì)性貢獻(xiàn)。

同時,各大社交媒體平臺和新聞出版商已開始限制其數(shù)據(jù)被用于AI訓(xùn)練。他們擔(dān)心如果數(shù)據(jù)被自由用于AI訓(xùn)練,可能導(dǎo)致內(nèi)容創(chuàng)造者和平臺本身失去應(yīng)得的經(jīng)濟(jì)回報。

此外,普羅大眾對于個人隱私的保護(hù)意識顯著提升,許多人對于將私人對話如iMessage中的聊天記錄提供給AI訓(xùn)練的意愿較低,人們可能擔(dān)心他們的隱私可能會受到侵犯。

最近,一位女記者就OpenAI最新模型Sora的訓(xùn)練數(shù)據(jù)向CTO Murati提問時,Murati未能明確回答,這引發(fā)了業(yè)界對OpenAI管理層對于訓(xùn)練數(shù)據(jù)來源的關(guān)注度的質(zhì)疑。這一事件觸發(fā)了更廣泛的討論,關(guān)于公共領(lǐng)域數(shù)據(jù)的所有權(quán)問題——我們在網(wǎng)絡(luò)上發(fā)布的內(nèi)容,究竟是屬于個人私密還是公共共享的資產(chǎn)?

因此,這些因素共同導(dǎo)致了數(shù)據(jù)獲取的困境。隨著用戶和監(jiān)管機(jī)構(gòu)對數(shù)據(jù)使用的監(jiān)控趨嚴(yán),研究者們必須在保護(hù)隱私與數(shù)據(jù)采集之間找到新的均衡。

13560189272
地址:廣州市天河區(qū)黃埔大道西201號金澤大廈808室
COPYRIFHT ? 2010-2020 廣州市名聯(lián)網(wǎng)絡(luò)科技有限公司 ALL RIGHTS RESERVED 粵ICP備10203057號
  • 這里是二維碼
主站蜘蛛池模板: 亚洲国产精久久久久久久电影| 亚洲人妻vvv111| 中文字幕综合色无码在线视频成人哺乳 | 亚洲男人的天堂久久精品国产高清| 午夜人妻久久久久久久久久久不卡| 中文字幕视频不卡乱码| 亚洲国产婷婷综合在线精品五月_国产成人精 | 国产91在线精品操| 国产无套粉嫩白浆在线播放兽皇 | 亚洲精品无码激情高清视频| 一本色道99国产精品蜜挑 | 天天射丝袜www| 日韩一区二区三区四区不卡好赶紧高清片 | 黄色永久免费网站33| 黄色毛片大片A毛片| 原央莉纱AV无码进入网站| 樱花AV在线| 久久久调教视频9199| 精品无码久久久久久久动漫,精品国产...| 美国av观看免费收看| 九九在线观看精品视频4| 国产在线精品二区迪丽热巴2022 | 亚洲美女又黄又爽在线观看穿越 | 永久av狼友网站在线观看免费| 人人玩人人添天| 久久精品国产99久久99久久久,久久狠 | 日韩精品一区二区三区中文字幕在线观看中文字幕 | 日产国产欧美视频一区精品| 爆乳熟妇一区二区三区桃心Av| 国产69精品久久久久9999Av| 丰满少妇作爱视频免费观看夫妻隔帘按摩视频 | 国产成人yy视频一区二区| 亚洲国产片在线观看无遮挡| 国产情侣91一区二区| 无码国内精品人妻少妇a?v| 麻豆国产一级视频网站大全| 中文字幕无码不卡一区二区三区,亚洲大道无码高清乱码 | 久久精品无码专区免费青青_久久久亚洲色 | 伊人激情久久综合中文字幕_六月丁香中 | 日本熟妇肉感BBWBBW免费看 | 中国字幕A级毛|