2021年,“開源”被首次寫入國家“十四五”規劃,開源憑借開放、協作、共享的特點,已成為全球軟件開發和產業創新發展的主導協作模式,為信息技術高質量發展提供了強大助力。與此同時,新一代人工智能、大數據、云計算、工業互聯網、區塊鏈等技術領域正結合開源,呈現出技術與產業協同共進共融的態勢。
如今,通過開源開放模式加速信息產業生態共建已經成為業界共識。2023年9月21日,由中國信息通信研究院(以下簡稱“中國信通院”)和中國通信標準化協會聯合主辦的“2023 OSCAR開源產業大會”在北京舉行。會上,中國信通院云計算與大數據研究所所長何寶宏首次與業界分享對下一代開源的最新見解與觀點。
開源拒絕重演“公地悲劇” 25年來取得巨大成功
25年來,開源以“違反”經濟學基本原理的方式,以共享代碼的方式大規模生產“數字公共品”。然而,在開源領域,經濟學中的“公地悲劇”并沒有出現?!肮乇瘎 笔且粋€經典的經濟學問題,描述了個體在追求自身利益的過程中,導致公共資源過度使用和衰退的現象。
互聯網的快速發展正是得益于開源的成功。從早期的操作系統Linux、安全通信OpenSSL、數據庫My SQL、門戶工具Apache、排版引擎Webkit,到近年來的手持終端Android、網絡Open Daylight、云計算Open Stack、大數據Hadoop、容器Docker以及AI深度學習領域的TensorFlow和PyTorch等,這些借助開源互聯網而起的開源軟件,今日又成了互聯網的基石??梢哉f,互聯網與開源同根同源、相伴相生,既是Internet over Open Source,也是Open Source over Internet。
目前,開源許可協議類型有2700多種,主要差異性體現在對分發衍生軟件的限制不同。在全球活躍度的前1000個開源軟件中,超過60%使用MIT、Apache 2.0以及BSD寬松型許可協議。
何寶宏指出,如今開源已取得巨大成功。從生態規???,全球開源生態成熟繁榮,全球開源軟件項目高速增長,覆蓋當前主流技術領域,全球開源貢獻者儲備規模龐大。從行業應用看,全球行業開源逐步興起,各行業應用開源模式建立產業開放供應鏈,提升生產效能。此外,開源模式正在引領科技實現越來越多的突破。
開源許可協議面臨新環境 從“通用開源”走向“場景化開源”
多年來,開源促進組織OSI(Open Source Initiative)維護著對開源的定義(OSD),以及其認可的開源許可協議列表,目標是促進和保護開源軟件及開源社區。一切不滿足OSI所規定的全部十條要求的開放許可協議,都會被開源權威機構OSI認為是“非典型性”開源。
開源許可協議從最早的GPL開始, 逐漸演進到GPLv2和v3,中間還有Apache、MPL、AGPL、LGPL等,但是近幾年來有一批新的許可協議出現,引起了社區的一些激烈的討論。這些新的許可協議包括BSL、SSPL、Elastic以及一個比較特殊的附加條款Commons Clause。
但OSI的這10大原則,誕生于20多年前,聚焦的是軟件代碼,更多是關于軟件產品,屬于通用開源范疇。近年來,開源的這一經典定義面臨著新的挑戰與重構,尤其是來自云計算、大數據、大模型和AIGC的挑戰,讓開源早已不在局限于通用領域,更多轉向聚焦于數據、服務等場景化開源。
如今,云計算已經催生了一批“非典型性”開源許可協議。早期的開源許可協議,未涉及到云服務場景的分發形式。市場現實是云廠商基于開源技術推出云服務,但貢獻甚少。于是,一批開源項目修改了開源協議,比如限制云服務模式的SSPL許可協議。
隨著大數據尤其是數據資產化,開放數據和數據流通成為一種新“開源”模式。數據通常是事實和信息的表達,而版權通常適用于原創創作的表達形式,版權通常不適用于數據資產。
AI大模型涉及的開放許可證類型更為復雜。僅Hugging Face上開源的人工智能模型就超過28萬,涉及66個開源協議,大致可以分為三類。第一類是通用開源軟件許可協議,比如Apache 2.0/GPL 3.0/MPL 2.0;第二類是知識共享許可協議,比如CC-BY-4.0;第三類是人工智能大模型開源許可協議,比如Llama/OpenRail等。
相對OSI經典的開源定義,開源AI大模型都會對“古典”開源的定義做成新限制,多為用途和生成內容的輸出。對于AIGC,更是存在新的爭議,比如:AIGC生成的代碼,可否參與開源貢獻?目前各方對此類問題試圖進行規范,比如:
2023年3月,美國版權局發布《AI版權認定聲明及登記指引》,純AIGC作品不受版權法保護,進行版權登記時需要披露AIGC部分。Apache基金會發布《第三方許可政策》,提出“AIGC的條款與開源定義保持一致”貢獻者注明創建貢獻時使用的工具,例如包含“Generated-by”。
事實上,AIGC涉及的版權和開放許可,還未形成廣泛共識。何寶宏指出,開放許可協議的基石可分為幾個階段:軟件著作權—>著作權—>知識產權—>知識產權+。涉及到開放數據和開源大模型許可協議,更需要考慮使用場景、商業收益和科技倫理問題。
迎接下一代開源 需與現實世界適配
當軟件從產品成為服務,當開放的對象從代碼延展到數據和模型,當開放許可的法律基礎從版權延展所有權,當代碼生成主體從自然人的程序員延展到AIGC,當開源與現實中的法規制度、隱私保護和科技倫理日益密切時,下一代開源將向何處去?
開源軟件促進會OSI(open source initiative)對于開源提出了十個條款,包括:自由再發布、源代碼公開、允許派生作品、作者源代碼完整性、不能歧視任何個人或團體、不能歧視任何領域、許可協議的發布、許可協議不能只針對某個產品、許可協議不能約束其他軟件、許可協議必須獨立于技術。
目前,OSI已啟動Open Source AI的定義討論工作,定義了開放數據和人工智能系統的基本原則,涉及數據安全、版權所屬、監管要求、道德倫理、責任認定等多個方面。
總體而言,何寶宏認為,下一代開源需要從兩方面進行規范:一方面,開源應該與現實社會深度融合,遵守現實治理規則,如:監測統計、自律公約、責任邊界、安全防護;另一方面,開源的發展也需要跟隨社會長期性和周期性的發展規律。
審核編輯 黃宇
-
開源
+關注
關注
3文章
3380瀏覽量
42603
發布評論請先 登錄
相關推薦
評論