aAI 簡報 20230522期
1. ChatGPT App 來了!
原文:https://mp.weixin.qq.com/s/aWBhq8Ff3XoOK4Yre8Qhxg
兩個月前,在 ChatGPT 相繼公開 API、帶來「插件功能」之際,我們明顯感知到了 GPT 正在以前所未有的速度成為人工智能時代的 Windows,AI 發展也正處于 iPhone 4 時刻。
當下,ChatGPT 的進度再下一城,其自身真正迎來了 iPhone 時刻。
今天凌晨,OpenAI 在美國發布了一款適用于 iOS 客戶端的免費 ChatGPT App,這意味著很多用戶隨時隨地都能訪問這款 AI 聊天機器人。
該 App 不僅基于 Whisper AI 語音識別模型提供語音輸入支持,還可以與網頁版 AI 助手 ChatGPT 同步聊天記錄。這也是 OpenAI 首次將 ChatGPT 引入官方移動客戶端。
不過,有些遺憾的是,該 App 目前僅限于美國地區用戶使用。OpenAI 稱未來幾周內會逐步擴展到其他國家/地區,也會“很快”推出適用于 Android 設備的 ChatGPT 應用程序。
從功能上來看,ChatGPT App 和網頁版應用程序一樣,作為一款 AI 聊天機器人,可以直接對它提問,由此,不同行業的不同用戶能夠通過它得到自己想要代碼、郵件模版、文本建議等答案,
從使用流程上來看,用戶首先也要有 OpenAI 賬號登錄 ChatGPT App 后,才能正常使用。與此同時,由于 ChatGPT 的互動回應等 AI 處理操作是在 OpenAI 服務器上進行,因此需要聯網才能用。
OpenAI 在官方公告中還指出,ChatGPT Plus 訂閱者可以擁有和網頁版類似的功能,如獨家訪問 GPT-4 的功能、“提前訪問”新功能以及有更快的響應時間。
值得一提的是,ChatGPT Plus 服務最早是在今年 2 月推出,每月費用是 20 美元,包括即使在高峰期也能訪問 ChatGPT。
在 iOS 端 ChatGPT App 上線的第一時間,在不少人持以好奇的時候,國外工具分析平臺 Emerge Tools 率先對這款 App 進行了拆解分析,在 Twitter 上為我們揭曉了 ChatGPT iOS 應用程序是如何制作的。
Emerge Tools 表示,ChatGPT iOS App 的整體安裝大小為 41.9 MB,結構相當簡單。以下是 X-Ray 樹狀圖,看不太清楚的小伙伴,也可以通過 Emerge Tools 官網(https://www.emergetools.com/app/example/ios/chatgpt)查看 ChatGPT App 的模塊組成。
Emerge Tools 稱:ChatGPT 沒有鏈接任何動態框架,這樣有助于保持 App 的體積小。通過解析,我們可以看到一些靜態鏈接的模塊,譬如:
@mixpanel——用于分析
@datadoghq——用于記錄
@getsentry——用于性能監控
@RevenueCat——用于付款
@auth0——用于身份驗證
+ 其他
另外,Emerge Tools 還使用了其自己的開源分析工具 ETTrace(https://github.com/emergeTools/ettrace)分析了該 App 的啟動過程。其認為,「該 App 整體啟動時間非常快,實際上只初始化了幾個包含的框架,沒有明顯的瓶頸」。同時,Emerge Tools 稱,看起來該應用程序只是轉發了與 OpenAI 的服務器之間的查詢/響應。
2. 幾行代碼安裝,免費做圖無上限:Stability AI公布DreamStudio開源版本
原文:https://mp.weixin.qq.com/s/WiuD9XcN4TCDhpBh7fXLjw
自從文本到圖像開源模型 Stable Diffusion 最初版本發布以來,DreamStudio 一直是 Stability AI 新模型和功能的主要界面。迄今,用戶已經借助 DreamStudio 創建了數百萬張圖像。
最近,DreamStudio 還升級到了 SDXL,實現了比其前身 Stable Diffusion 2.1 更詳細的圖像和構圖,并能用較短的 prompt 來創建描述性圖像。
就目前來說,DreamStudio 已經可以生成這樣的圖像,效果不輸 Midjourney 5.1:
盡管 DreamStudio 提供了幾乎沒有門檻的圖像生成方法,但它也有一個條件:付費。SDXL 版本的定價甚至還要更高一些。
而且,對一部分技術過關的開發者來說,他們也希望能夠在 DreamStudio 的基礎上進行一些應用擴展。或許是聽到了網友們的心聲?剛剛,Stability AI 發布了 DreamStudio 的開源版本 ——StableStudio。
開源地址:https://github.com/Stability-AI/StableStudio
「我們相信,擴大技術落地的最佳方式是通過開放、社區驅動的開發,而不是閉源產品的私有化迭代。」Stability AI 表示。
在該公司的規劃中,StableStudio 的目標是進行更廣泛的社區合作,為生成式 AI 打造一個世界級的用戶界面,讓用戶能夠充分控制。盡管 DreamStudio 仍將是 Stability 公司托管的 StableStudio 的實現,但最終目標是培養一個能夠超越任何由單一公司開發的項目。
具體來說,StableStudio 和 DreamStudio 有什么區別?
Stability AI 做了一些調整,使得該項目對社區更加友好。包括:
-
刪除了 DreamStudio 專屬品牌;
-
所有在線 API 調用都已被插件系統取代,用戶可以輕松更換后端;
-
刪除了專屬于 Stability 的帳戶功能,例如計費、API 密鑰管理等。
擴展功能
DreamStudio 最初被設想為 Disco Diffusion 的動畫 studio,2022 年 Stable Diffusion 發布之后,DreamStudio 的重點就轉向了圖像生成。
受今年爆火的對話模型啟發,4 月 Stability AI 發布了開源 LLM StableVicuna。DreamStudio 的開源版本 StableStudio 將和 StableVicuna 結合,推出聊天界面。
Stability AI 表示,StableStudio 未來可能會更新以下功能:
-
通過 WebGPU 進行局部推理
-
通過 stable-diffusion-webui 進行局部推理
-
桌面安裝
-
ControlNet 工具
3. 3.6萬億token、3400億參數,谷歌大模型PaLM 2細節遭曝光
原文:https://mp.weixin.qq.com/s/KisM8tU8sHZLhUjxcCG-NA
上周四,在 2023 谷歌 I/O 大會上,谷歌 CEO 皮查伊宣布推出對標 GPT-4 的大模型 PaLM 2,并正式發布預覽版本,改進了數學、代碼、推理、多語言翻譯和自然語言生成能力。
PaLM 2 模型提供了不同尺寸規模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行,速度非常快,不聯網也能在設備上運行出色的交互式應用程序。不過會上,谷歌并沒有給出有關 PaLM 2 的具體技術細節,只說明了它是構建在谷歌最新 JAX 和 TPU v4 之上。
昨日,據外媒 CNBC 看到的內部文件稱,PaLM 2 是在 3.6 萬億個 token 上訓練。作為對比,上代 PaLM 接受了 7800 億 token 的訓練。
此外,谷歌之前表示 PaLM 2 比以前的 LLM 規模更小,這意味著在完成更復雜任務的同時變得更加高效。這一點也在內部文件中得到了驗證,PaLM 2 的訓練參數量為 3400 億,遠小于 PaLM 的 5400 億。
PaLM 2 的訓練 token 和參數量與其他家的 LLM 相比如何呢?作為對比,Meta 在 2 月發布的 LLaMA 接受了 1.4 萬億 token 的訓練。OpenAI 1750 億參數的 GPT-3 是在 3000 億 token 上訓練的。
雖然谷歌一直渴望展示其 AI 技術的強大能力以及如何嵌入到搜索、電子郵件、文件處理和電子表格中,但也不愿公布其訓練數據的大小或其他細節。其實這樣做的不只谷歌一家,OpenAI 也緘口不言其最新多模態大模型 GPT-4 的細節。他們都表示不披露細節是源于業務的競爭屬性。
不過,隨著 AI 軍備競賽的持續升溫,研究界越來越要求提高透明度。并且在前段時間泄露的一份谷歌內部文件中,谷歌內部研究人員表達了這樣一種觀點:雖然表面看起來 OpenAI 和谷歌在 AI 大模型上你追我趕,但真正的贏家未必會從這兩家中產生,因為第三方力量「開源」正在悄然崛起。
目前,這份內部文件的真實性尚未得到驗證,谷歌也并未對相關內容置評。
4. 前哈工大教授開發的ChatALL火了!可同時提問17個聊天模型,ChatGPT/Bing/Bard/文心/訊飛都OK
原文:https://www.thepaper.cn/newsDetail_forward_23143443?commTag=true
今天的你,是否還在幾個聊天大模型之間“反復橫跳”?
畢竟各家訓練數據和方法不盡相同,擅長和不擅長的東西也都不一樣。
現在,不用這么麻煩了。
有人開發了一個名叫“ChatALL”的應用,可以將你的提問同時發送給10多個市面上常見的聊天機器人,比如ChatGPT、GPT4、Bing、Bard、Claude、文心一言、訊飛星火等等,并一一展現出來。
由此一來,你就可以輕松比對出答得最好的那一個,然后采用。
簡直太方便了有沒有?
這不,項目非常受歡迎,已登上GitHub今日熱榜第一名,攬獲1.6k+標星。
它是一個應用程序,支持中英德三種語言。
只需下載安裝包即可使用,Mac、Windows和Linux都支持。
其功能包括:
-
快問模式:不需要等待前面的請求完成,就可以發下一條指令
-
對話歷史保存在本地,保護你的隱私
-
高亮喜歡的答案,刪除不需要的答案
-
自動保持ChatGPT不掉線
-
隨時啟用/禁用任何機器人
-
在一列、兩列或三列視圖之間切換
-
……
未來還能夠推薦最佳答案。
目前支持的AI聊天機器人列表如下:
其中,特別包括一個本地Gradio,它可以對接你自己部署的模型。
而在應用程序界面中,一共顯示了17個圖標,證明目前最多已可支持17種聊天機器人。
需要注意的是,這只是一個集中了所有聊天AI的程序,不是代理,所以每個都需要你登錄自己的賬號,當然,API token也可以。
登錄之后,想一次詢問哪些機器人就點亮對應的圖標,就可以開始玩耍了。大家快去試試吧。
5. AI孫燕姿成今年爆火歌手,這一時代眼見不實,耳聽為虛
原文:https://mp.weixin.qq.com/s/1XP5VAJe7Extk6TEkU9rzQ
就在近期,華語樂壇的不少歌迷喜氣洋洋,認為目前的歌壇回到了20年前,歌迷們又享受到了許多動聽的歌聲。不過與以往不同的是,這些演唱者并非真人,而是一個個訓練出來的AI。
這些AI足以以假亂真,通過技術將一首音樂以更換演唱者的方式來進行不同的演繹,不僅為歌壇帶來了不一樣的視聽體驗,同時也引發了行業對AI技術應用的思考。在AI時代,我們的所見所聞,或許都是由AI創造的。
光怪陸離的AI時代
如今的網絡上有一個梗,要問今年哪個歌手最火,答案可能會出乎許多人意料,并不是某位歌手,而是一些由AI所制作出來的語音,如AI孫燕姿、AI周杰倫等。通過將原來歌手的聲音進行采集訓練,從而替換另一首歌的原唱。
通過這種方式,實現了讓自己喜歡的歌手唱另一首自己喜歡但非歌手的歌,比如用孫燕姿的聲音演唱周杰倫的《晴天》。關鍵在于,不論是演唱語調、技巧乃至音色,幾乎都與孫燕姿相差無幾。
實現這一技術目前已經有一套標準流程,先通過收集大量的音樂和歌詞,并對這些數據進行清洗和標注,以便訓練算法和模型。再選擇合適的算法和模型,并進行優化和調整,以提高虛擬人物的歌唱和表演能力。
通過語音合成技術將文字轉換為聲音,并對聲音進行處理和優化,以達到更加自然和流暢的效果。最后將原來歌曲的聲音替換成語音合成的聲音,再進行調試,就能得到一首全新演唱的歌曲。
既然都已經可以替換聲音演唱歌曲了,那么更進一步替換視頻畫面進行演繹也就不太難了。近期谷歌的I/O大會上,便公布了一項Universal Translator技術,該工具旨在將視頻從一種語言翻譯成另一種語言,同時保留整體基調和氛圍。
這意味著該技術不僅可以將音頻從一種語言翻譯成另一種語言,還可以模仿說話者的聲音、語氣和面部表情,人物說話視頻會根據目標語言的發音同步改變口型。
當然,為了避免這項技術被用來制作虛假視頻,谷歌將這項技術只授權給少部分的合作廠商使用,普通人是無法接觸到的。但市場上如今已經有許多類似的AI出現,谷歌的此舉不過是略作限制,但無法阻止這股趨勢。
更有甚者,如一位美國網紅發布了AI版本的自己“Caryn AI”,這個應用是一款聊天機器人,可以作為用戶的虛擬伴侶,目前正在內部測試階段,每分鐘收費一美元。
據美國雜志《財富》披露,就在過去一周的時間內,這款軟件已經為其創造了7.16萬美元(約合人民幣50萬元)的收入,已經吸引了超過1000名付費粉絲。
這種模式或許也將沖擊未來的娛樂行業,想象每一位追星的粉絲,只要付費,都將擁有與自己偶像一對一聊天的機會,其所創造的價值潛力將是巨大的。
但這種由AI所創造出來的音樂、視頻、伴侶或者偶像,真的可以提供人們所需要的情緒價值嗎?這是個值得思考的問題。
AI之后的隱憂
盡管這些AI應用的落地前景非常誘人,比如采用AI替換歌曲中的聲音,就能夠實現歌手只需要提供聲音的模板,便可以進行批量的音樂制作。甚至不用自己演唱,也能夠推行相關專輯。
技術上主要通過機器學習技術,訓練機器模仿一個特定的歌手的音樂風格、聲音和唱腔,然后將這些技能應用于其他歌曲的錄制中。這種技術在一定程度上提高了錄制歌曲的效率和質量,并且可以節省制作成本。
但如果使用他人的聲音進行創作,就可能有侵權的風險。尤其在數據采集階段,以語音替換為例,首先需要收集大量的語音數據,并對這些數據進行標注和處理。標注可以包括音素、語調、語速等信息,以便訓練模型能夠準確地識別和替換語音。
這一過程便可能涉及到對用戶隱私數據的采用,甚至對用戶的隱私和數據安全造成威脅,還有可能進一步造成財產安全。因為語音合成就可能被犯罪分子用于詐騙,通過合成親屬或者熟人的聲音來謀取資金。
如果用AI更改視頻畫面甚至進一步篡改其中的對話,則可能造成更多的風險。比如將會遇到即便是用視頻聊天,也無法確定對面的是不是真的想要聯系的那個人。這項技術目前甚至已經應用在許多的直播平臺中,比如一些虛擬主播、虛擬偶像等,如果一旦濫用,可能會造成更多的危害。
為了避免這一情況的發生,除了加強對AI技術的監管,建立相應的法律制度和規范,還可以通過一些技術手段來避免自身的數據被采集,從而造成侵權以及侵犯隱私的風險。比如采用區塊鏈技術來保護數據的安全性和隱私性,采用人工智能算法來檢測和識別惡意行為等手段。
以區塊鏈技術為例,其去中心化和不可變性特點能夠確保數據的安全和完整性,因此可以用于AI技術的安全驗證和認證。基于區塊鏈技術,數據交互和交流的過程被保護,因此可以授權AI對數據的操作并確保AI數據訪問權限受到限制。
同時,區塊鏈技術還可以幫助人們更好地控制AI技術的使用,并提高AI的公正和透明性。例如,以基于區塊鏈技術的智能合約的方式來控制AI的使用,可以加強對AI系統的監督,并確保其行為符合人類的期望和價值。
當然,區塊鏈技術還面臨著可擴展性、隱私保護等問題,同時在操作成本和技術難度方面也存在一定的限制,還無法完全避免AI濫用的問題。
我們還可以運用數字簽名技術檢測音頻和視頻是否被AI修改,數字簽名是指在文件中包含數字代碼的技術,在將文件傳輸或轉發給其他人時,可以驗證文件的完整性和真實性。或者使用機器學習算法來檢測這些變化,例如,可以使用深度神經網絡來對音頻或視頻進行分析,以檢測其中的模式和結構是否與人類創作者的作品相似。如果發現有明顯的差異,則可能表明該作品是由AI生成的。
但隨著未來AI技術的發展,這些差異化和容易被檢測出來的問題都有可能被AI克服,使得我們最終很難分辨哪些產品是由AI制作,哪些才是由人所原創的。
寫在最后
隨著生成式AI技術的大爆發,如ChatGPT、文心一言、訊飛星火等聊天機器人的出現,讓人們工作效率得以極大地提高,Stable Diffusion、Midjourney等AI的出現,讓圖片制作成本大幅降低,Universal Translator、Video Dubbing AI等,讓視頻也開始變得容易制作。
這些AI技術的出現顯然極大的解放了人們的生產力,讓人類發展走上快車道。當然有人會說以上這些AI都是通過收集大量數據之后,輸出縫合之后的產品,根本不能稱得上是原創。
但就像我們的學習過程一樣,最開始都是模仿,后來才開始擁有自己的獨立風格,但這些風格或多或少都會有之前學習過的影子,而這就是創造的過程,AI也是如此。
更值得關注的是,隨著AI技術的快速發展,其所帶來的風險也在與日俱增。如何更好的處理AI所引發的風險,將是我們未來所面對的主要問題。
6. 星一文看盡深度學習各種注意力機制,學習推薦!
https://mp.weixin.qq.com/s/PkzzElN1uk2Yzu1DsYnOdQ
注意力機制在計算機視覺領域的應用主要使用于捕捉圖像上的respective field,而在自然語言處理領域中的應用主要使用于定位關鍵的token。下面簡單介紹下注意力機制在早期的幾個經典應用。
《A Model of Saliency-Based Visual Attention for Rapid Scene Analysis》[2]
這是早期將注意力機制應用于計算機視覺領域的一篇代表作,文章于1998年發表于TAPMI。作者受早期靈長目視覺系統的神經元結構啟發,提出了一種視覺注意力系統,可以將多尺度的圖像特征組合成單一的顯著性圖。最后,利用一個動態神經網絡,并按照顯著性的順序來高效的選擇重點區域。
《Recurrent Models of Visual Attention》[3]
使注意力機制真正火起來的當屬于谷歌DeepMind于2014年所提出的這篇文章,該論文首次在RNN模型上應用了注意力機制的方法進行圖像分類。
《Neural Machine Translation by Jointly Learning to Align and Translate》[4]
這是由深度學習三巨頭之一Yoshua Bengio等人于2015年發表于ICLR上的一篇論文,該論文的最大貢獻是將注意力機制首次應用到NLP領域,實現了同步的對齊和翻譯,解決以往神經機器翻譯(NMT)領域使用Encoder-Decoder架構的一個潛在問題,即將信息都壓縮在固定長度的向量,無法對應長句子。
《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》[5]
這篇文章由Yoshua Bengio等人于2015年在ICML上所發表的,該論文將注意力機制引入到圖像領域,作者提出了兩種基于注意力機制的圖像描述生成模型: 使用基本反向傳播訓練的Soft Attetnion方法和使用強化學習訓練的Hard Attention方法。
《Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition》[6]
這是發表于CVPR 2017年的一篇文章,作者提出了一種基于CNN的注意力機制,叫做循環注意力卷積神經網絡(Recurrent Attention Convolutional Neural Network, RA-CANN),該網絡可以遞歸地分析局部信息,并從所獲取的局部區域中提取細粒度信息。此外,作者還引入了一個注意力生成子網絡(Attenion Proposal Sub-Network, APN),迭代的對整圖操作以生成對應的子區域,最后再將各個子區域的預測記過整合起來,從而后的整張圖片最終的分類預測結果。
《Attention is All Your Need》[7]
這是由谷歌機器翻譯團隊于2017年發表于NIPS上的一篇文章,該論文最大的貢獻便是拋棄了以往機器翻譯基本都會應用的RNN或CNN等傳統架構,以編碼器-解碼器為基礎,創新性的提出了一種Transformer架構。該架構可以有效的解決RNN無法并行處理以及CNN無法高效的捕捉長距離依賴的問題,近期更是被進一步地應用到了計算機視覺領域,同時在多個CV任務上取得了SOTA性能,挑戰CNN在CV領域多年的霸主地位。
本文將重點圍繞通道、空間、自注意力、類別等多個維度[8]介紹計算機視覺領域中較為出名的注意力機制方法,力爭用最簡短的語言解釋得更加通俗易懂。
通道&空間注意力
通道注意力旨在顯示的建模出不同通道之間的相關性,通過網絡學習的方式來自動獲取到每個特征通道的重要程度,最后再為每個通道賦予不同的權重系數,從而來強化重要的特征抑制非重要的特征。
空間注意力旨在提升關鍵區域的特征表達,本質上是將原始圖片中的空間信息通過空間轉換模塊,變換到另一個空間中并保留關鍵信息,為每個位置生成權重掩膜(mask)并加權輸出,從而增強感興趣的特定目標區域同時弱化不相關的背景區域。
SE-Net[9]
《Squeeze-and-Excitation Networks》發表于CVPR 2018,是CV領域將注意力機制應用到通道維度的代表作,后續大量基于通道域的工作均是基于此進行潤(魔)色(改)。SE-Net是ImageNet 2017大規模圖像分類任務的冠軍,結構簡單且效果顯著,可以通過特征重標定的方式來自適應地調整通道之間的特征響應。
-
Squeeze利用全局平均池化(Global Average Pooling, GAP) 操作來提取全局感受野,將所有特征通道都抽象為一個點;
-
Excitation利用兩層的多層感知機(Multi-Layer Perceptron, MLP) 網絡來進行非線性的特征變換,顯示地構建特征圖之間的相關性;
-
Transform利用Sigmoid激活函數實現特征重標定,強化重要特征圖,弱化非重要特征圖。
1classSELayer(nn.Module):
2def__init__(self,channel,reduction=16):
3super(SELayer,self).__init__()
4self.avg_pool=nn.AdaptiveAvgPool2d(1)
5self.fc=nn.Sequential(
6nn.Linear(channel,channel//reduction,bias=False),
7nn.ReLU(inplace=True),
8nn.Linear(channel//reduction,channel,bias=False),
9nn.Sigmoid()
10)
11
12defforward(self,x):
13b,c,_,_=x.size()
14y=self.avg_pool(x).view(b,c)
15y=self.fc(y).view(b,c,1,1)
16returnx*y.expand_as(x)
此外,本文還總結了一下網絡,感興趣的同學可以查看原文。
GE-Net[10]
RA-Net[12]
SK-Net[13]
SPA-Net[14]
ECA-Net[15]
CBAM[16]
BAM[17]
scSE[18]
A2-Nets[19]
Non-Local[20]
DA-Net[22]
ANLNet[24]
CC-Net[26]
GC-Net[28]
…
———————End———————
RT-Thread線下入門培訓
6月 - 鄭州、杭州、深圳
1.免費2.動手實驗+理論3.主辦方免費提供開發板4.自行攜帶電腦,及插線板用于筆記本電腦充電5.參與者需要有C語言、單片機(ARM Cortex-M核)基礎,請提前安裝好RT-Thread Studio 開發環境
立即掃碼報名
報名鏈接
https://jinshuju.net/f/UYxS2k
巡回城市:青島、北京、西安、成都、武漢、鄭州、杭州、深圳、上海、南京
你可以添加微信:rtthread2020 為好友,注明:公司+姓名,拉進RT-Thread官方微信交流群!
點擊閱讀原文,進入RT-Thread 官網
-
RT-Thread
+關注
關注
31文章
1301瀏覽量
40265
原文標題:【AI簡報20230522期】ChatGPT App 來了!谷歌大模型PaLM 2細節遭曝光
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯網操作系統】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論