本周,兩家知名媒體——《華爾街日報》和《紐約時報》對AI公司在獲取優質訓練數據時遇到的困境進行了深入關注。值得注意的是,報道中提到了關于AI版權法模糊不清的灰色地帶。
通過開發Whisper音頻轉錄模型,OpenAI取得了一項突破性進展,成功轉錄了超過100萬個小時的YouTube視頻用于訓練GPT-4大型語言模型。其實施的這一過程因涉及版權問題而存在嚴重法律風險,但OpenAI仍堅持為技術創新設定開拓者的姿態。
另一位受訪者——《泰晤士報》,通過揭露OpenAI總裁Greg Brockman積極參與YouTube視頻收集工作的事實,強調此類操作的合法性問題。然而,OpenAI宣布將嚴格遵守相關法規,謹慎對待每一次行動。為了持續發展,OpenAI正不斷嘗試從各種渠道獲取有益的數據。
據OpenAI發言人Lindsay Held發表的聲明顯示,每個模型都在經過精心設計后配備了獨特的數據集,目的在于讓它們更準確地理解這個世界,能始終保持強大的研發能力。Notably, the company is exploring the possibilities of generating synthetic data to support their continuing growth and development.
相比之下,谷歌對此事持有不同看法。谷歌不認同未經授權就抓取和下載YouTube內容的行為,同時指出,谷歌的robots.txt文件和服務條款堅決禁止此類行為發生。近段時間,YouTube CEO尼爾·莫漢在接受采訪時也警告潛在的侵入者,使用YouTube視頻訓練AI模型的行為違反了其服務條款。
面對日益激烈的競爭環境,Meta公司同樣面臨著數據可用性問題。公司AI部門為了提升自身競爭力,甚至開始考慮未經授權使用版權作品,尤其是在面臨無法獲得足夠訓練數據之際。維持可持續發展已經成為了當下AI科技行業的當務之急。
-
語言模型
+關注
關注
0文章
527瀏覽量
10292 -
GPT
+關注
關注
0文章
354瀏覽量
15423 -
OpenAI
+關注
關注
9文章
1100瀏覽量
6572
發布評論請先 登錄
相關推薦
評論