天天躁日日躁狠狠躁av麻豆,日本xxxx裸体bbbb,亚洲av日韩av永久无码色欲

AI世界的新難題：互聯(lián)網(wǎng)的信息不夠用了！

2024-04-02 閱讀：316

來源：硬AI

高質(zhì)量數(shù)據(jù)的緊缺正成為AI發(fā)展的重要障礙。

4月1日，據(jù)媒體報道，隨著OpenAI、Google等企業(yè)不斷深入發(fā)展AI技術(shù)，科技巨頭們遇到了一個新問題：現(xiàn)有的互聯(lián)網(wǎng)信息量可能不足以支撐他們訓(xùn)練更先進(jìn)的AI系統(tǒng)。

科技巨頭的AI系統(tǒng)，比如能與人類聊天的ChatGPT，是通過學(xué)習(xí)網(wǎng)上的信息變得越來越聰明的。但現(xiàn)在，高質(zhì)量、有用的信息日益緊缺，同時，一些網(wǎng)站開始限制AI公司訪問他們的數(shù)據(jù)。據(jù)業(yè)界一些高管和研究人員表示，AI行業(yè)對高質(zhì)量文本數(shù)據(jù)的需求可能在兩年內(nèi)超過供應(yīng)，這將可能減緩AI技術(shù)的發(fā)展速度。

面對信息不足的問題，AI公司正在嘗試各種方法來尋找新的信息源。比如OpenAI正在考慮用YouTube視頻里的對話來訓(xùn)練它們的下一代智能模型GPT-5。有的公司甚至創(chuàng)造合成數(shù)據(jù)來學(xué)習(xí)，盡管這種方法被許多研究人員認(rèn)為可能會導(dǎo)致系統(tǒng)發(fā)生嚴(yán)重故障，但不失為克服數(shù)據(jù)短缺的一種潛在途徑。

據(jù)悉，這些努力大多保密進(jìn)行，因為找到有效的解決方案可能成為企業(yè)在激烈競爭中的關(guān)鍵優(yōu)勢。隨著數(shù)據(jù)需求不斷增長，找到新的學(xué)習(xí)材料、與數(shù)據(jù)所有者的合作，讓AI系統(tǒng)變得更加聰明，就成了這個行業(yè)的重要備戰(zhàn)區(qū)。

OpenAI的GPT-5面臨10萬億到20萬億tokens的數(shù)據(jù)短缺

AI語言模型的構(gòu)建依賴于從互聯(lián)網(wǎng)上收集的大量文本數(shù)據(jù)，這些數(shù)據(jù)包括科學(xué)研究、新聞文章、維基百科條目等。這些材料被分解成“tokens”，tokens可以是完整的單詞或單詞的一部分。AI模型通過分析和理解這些tokens之間的關(guān)系和模式，學(xué)會了如何生成流暢、自然的語言，從而能夠回答問題、撰寫文章甚至創(chuàng)作詩歌。

模型的能力在很大程度上取決于它訓(xùn)練的數(shù)據(jù)量。通常情況下，數(shù)據(jù)越多，模型的性能就越好，因為它有更多的例子來學(xué)習(xí)不同的語言用法和復(fù)雜性。

OpenAI通過為其GPT系列模型提供海量訓(xùn)練數(shù)據(jù)，不斷提升性能，借此成為世界頂尖AI公司。這展示了大數(shù)據(jù)訓(xùn)練對于AI發(fā)展的重要性。

但是，隨著GPT-4模型的不斷擴(kuò)大，OpenAI對數(shù)據(jù)的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計，GPT-4訓(xùn)練涉及的數(shù)據(jù)量高達(dá)12萬億tokens，而未來模型，如GPT-5，可能需要60萬億到100萬億tokens。因此，即便是利用所有可用的高質(zhì)量語言和圖像數(shù)據(jù)，研發(fā)GPT-5仍可能面臨10萬億到20萬億tokens的數(shù)據(jù)短缺。至于如何彌補(bǔ)這一巨大的數(shù)據(jù)缺口，目前尚無明確方案。

據(jù)媒體報道，為應(yīng)對數(shù)據(jù)短缺挑戰(zhàn)，AI公司正在嘗試各種方法來尋找新的信息源。Meta創(chuàng)始人扎克伯格近期強(qiáng)調(diào)，公司通過Facebook和Instagram等平臺擁有的大量數(shù)據(jù)，為其AI研發(fā)提供了重要優(yōu)勢。扎克伯格表示，Meta能夠利用網(wǎng)絡(luò)上數(shù)以百億計的公開共享圖片和視頻，這些數(shù)據(jù)的規(guī)模超過了大多數(shù)常用數(shù)據(jù)集，盡管其中高質(zhì)量數(shù)據(jù)的比例尚不明確。

而OpenAI則考慮使用其自動語音識別工具Whisper轉(zhuǎn)錄的高質(zhì)量視頻和音頻示例。此外，OpenAI還在考慮建立一個數(shù)據(jù)市場，以評估每個數(shù)據(jù)點對模型訓(xùn)練的貢獻(xiàn)并據(jù)此向內(nèi)容提供者支付費用，這一創(chuàng)新想法也引起了Google的關(guān)注。

Epoch研究所預(yù)測AI數(shù)據(jù)短缺危機(jī)將推遲至2028年

兩年前，Villalobos和他的同事寫道，到2024年年中，對高質(zhì)量數(shù)據(jù)的需求超過供給的可能性為50%，到2026年發(fā)生這種情況的可能性為90%。自那以后，他們變得更加樂觀，在AI研究員Pablo Villalobos及其團(tuán)隊的審慎評估下，新的預(yù)期顯示，這種短缺風(fēng)險將延遲至2028年。

這項樂觀的更新基于對當(dāng)前數(shù)據(jù)質(zhì)量和可用性的深刻洞察。Villalobos指出，互聯(lián)網(wǎng)上的絕大多數(shù)數(shù)據(jù)并不適合作為AI訓(xùn)練材料。在無盡的信息流中，只有一小部分?jǐn)?shù)據(jù)（遠(yuǎn)低于先前預(yù)計）能對AI模型的增長和發(fā)展做出實質(zhì)性貢獻(xiàn)。

同時，各大社交媒體平臺和新聞出版商已開始限制其數(shù)據(jù)被用于AI訓(xùn)練。他們擔(dān)心如果數(shù)據(jù)被自由用于AI訓(xùn)練，可能導(dǎo)致內(nèi)容創(chuàng)造者和平臺本身失去應(yīng)得的經(jīng)濟(jì)回報。

此外，普羅大眾對于個人隱私的保護(hù)意識顯著提升，許多人對于將私人對話如iMessage中的聊天記錄提供給AI訓(xùn)練的意愿較低，人們可能擔(dān)心他們的隱私可能會受到侵犯。

最近，一位女記者就OpenAI最新模型Sora的訓(xùn)練數(shù)據(jù)向CTO Murati提問時，Murati未能明確回答，這引發(fā)了業(yè)界對OpenAI管理層對于訓(xùn)練數(shù)據(jù)來源的關(guān)注度的質(zhì)疑。這一事件觸發(fā)了更廣泛的討論，關(guān)于公共領(lǐng)域數(shù)據(jù)的所有權(quán)問題——我們在網(wǎng)絡(luò)上發(fā)布的內(nèi)容，究竟是屬于個人私密還是公共共享的資產(chǎn)？

因此，這些因素共同導(dǎo)致了數(shù)據(jù)獲取的困境。隨著用戶和監(jiān)管機(jī)構(gòu)對數(shù)據(jù)使用的監(jiān)控趨嚴(yán)，研究者們必須在保護(hù)隱私與數(shù)據(jù)采集之間找到新的均衡。

上一篇：科技出海記｜“我在菲律賓做數(shù)字信貸，結(jié)果收購了一家銀行”

下一篇：AI程序員Devin獨角獸，半年估值20億美元？業(yè)內(nèi)曝AI泡沫：買卡500億

色综合久久天天综线观看-色综合久久天天综合绕观看-色综合久久天天综合观看-色综合久久天天综合-色综合久久手机在线-色综合久久久久综合体桃花网