4月2日報道,盡管Siri在描述圖片信息的能力上不夠完善,但蘋果公司并未停止對人工智能領域的深入探索。其最新研究論文詳述了一種大幅提升Siri智能化水平的模型——ReALM。該模型在測試中超越了OpenAI的GPT-4.0著名語言模型。
據悉,ReALM的獨特特性是同時理解用戶屏幕內容及正在執行的操作。依據信息類型,論文將信息細分成三類:
(1)屏幕實體: 即當前顯示在用戶屏幕上的內容。
(2)對話實體: 指與對話相關的內容。如,用戶請求“撥打母親的電話”,那么,母親的聯系信息便屬于此類。
(3)背景實體: 與用戶當前操作或屏幕顯示內容未必直接相關的實體,如正在播放的音樂或即將發出的報警鈴聲。
一旦成功實現,ReALM將賦予Siri更高的智能化和實用性。該團隊將ReALM與OpenAI的GPT-3.5和GPT-4.0進行了性能比拼:
“我們以上下文信息作為輸入,對比了OpenAI的GPT-3.5和GPT-4.0模型預測實體的準確程度。由于GPT-3.5僅支持文本輸入,故我們僅提供文字提示;而GPT-4允許理解圖片信息,所以我們給它提供了屏幕截圖,從而有效提高了屏幕實體識別的效率?!?/p>
那蘋果的ReALM是否具備如此強大的性能優勢呢?
“我們的模型在識別各種類型實體方面都有顯著提升,即使是小尺寸模型,在屏幕實體識別準確性上也已超過原有的系統5%以上。在與GPT-3.5和GPT-4.0的比較中,小型模型與GPT-4.0相媲美;更大的模型則表現更佳。”
論文得出的結論之一便是,有比GPT-4參數少許多的ReALM,卻仍可在性能上與之匹敵。在處理某些特定領域的用戶指令時,ReALM甚至優于其他模型,使其成為一款高效、實用且可本地運行的實體識別系統。
而關鍵問題在于,蘋果需尋求無損性能的方法來將此技術運用至設備之中。據了解,預計6月10日舉行的WWDC 2024開發者大會上,蘋果將會在iOS 18等新系統中展現更多人工智能技術創新成果,令人頗為期待。
-
模型
+關注
關注
1文章
3243瀏覽量
48840 -
GPT
+關注
關注
0文章
354瀏覽量
15373 -
蘋果公司
+關注
關注
2文章
447瀏覽量
22594
發布評論請先 登錄
相關推薦
評論