作者 / 開發者關系工程師 Terence Zhang 和產品經理 Kristi Bradford
Google Pixel 的 Recorder 應用允許用戶錄制、轉錄、保存和共享音頻。為了讓用戶更輕松地管理和回顧自己的錄音,Recorder 的開發者將目光鎖定在功能強大的設備端大語言模型 (LLM) Gemini Nano 上。這一集成引入了 AI 驅動的音頻摘要功能,幫助用戶更輕松地找到所需的錄音并快速掌握內容要點。
近期,隨著引入新的多模態模型,Gemini Nano 實力大增。Recorder 應用已經在利用此升級來提煉更長的錄音,并提升了對語法和細節的處理能力。
使用設備端 AI 滿足用戶需求
Recorder 的開發者最初嘗試了基于云端的解決方案,在性能和質量方面取得了卓越的成果。然而,為了優先考慮用戶的無障礙和隱私需求,他們轉而尋求一種設備端解決方案。Gemini Nano 提供了一個絕佳機會,可以提供用戶所需的簡潔音頻摘要,與此同時還能保持在設備端進行數據處理。
Gemini Nano 是 Google 為設備端任務打造的最高效的模型。Pixel essential 應用產品經理 Kristi Bradford 表示: "在設備端集成 LLM 對用戶有很多好處,能為用戶提供更高隱私性、更低延遲,而且由于不需要網絡,用戶在任何地方都能使用。"
為了取得更好的效果,Recorder 還使用與其用例相匹配的數據對模型進行了微調。開發者采用低秩適應 (LoRA) 技術進行微調,從而讓 Gemini Nano 能夠穩定地輸出包含相關發言人姓名、內容要點和主題在內的三點描述。
AICore 是一種 Android 系統服務,可集中管理 LLM 的運行時、交付和關鍵安全組件,大幅簡化了 Recorder 對 Gemini Nano 的使用。借助用于運行 GenAI 工作負載的開發者 SDK,開發團隊僅依靠四名開發者,在短短四個月內便開發了轉錄摘要功能。而這樣的效率,正是由于無需維護內部模型所實現的。
自 Recorder 發布以來,用戶平均每天使用 2 到 5 次新的 AI 摘要功能,保存的錄音總數增加了 24%。這一功能顯著提高了應用的總體參與度和用戶留存率。Recorder 團隊還指出,用戶對新功能給予了正面反饋,許多用戶表示新的 AI 摘要功能為他們節省了大量時間。
下一項重大進展:
多模態 Gemini Nano
Recorder 的開發者還采用了最新的 Gemini Nano 模型,即多模態 Gemini Nano,以進一步改進該應用在 Pixel 9 設備上的摘要功能。新模型比 Pixel 8 設備上的舊模型大很多,而且功能更強大、結果更準確、擴展能力更出色。新模型還擴展了令牌 (token) 支持,讓 Recorder 可以提煉比以前更長的轉錄文本。
將 Gemini Nano 與多模態集成需要再進行一輪微調。不過,Recorder 的開發者得以利用原始 Gemini Nano 模型的微調數據集作為基礎,從而簡化了開發過程。
為了充分發揮新模型的功能,Recorder 開發者擴大了數據集,支持更長的錄音,實施了完善的評估方法,并建立了側重于語法和細節的發布標準指標。將語法作為評估推理質量的新指標,完全得益于多模態 Gemini Nano 的增強功能。
使用設備上的 AI 實現更多功能
Kristi 表示:"生成式 AI 是一項新的功能,整個團隊都在學習使用它的過程中收獲了樂趣。現在,我們有能力在滿足用戶新需求和把握新機遇的同時,突破極限。生成式 AI 確實為解決問題和開展實驗帶來了全新的創造力。我們已經演示了至少兩項生成式 AI 功能,它們可以幫助人們在公司內部節省時間,以獲得早期反饋。我們很期待看到未來的更多可能性。"
-
Google
+關注
關注
5文章
1765瀏覽量
57530 -
Gemini
+關注
關注
0文章
53瀏覽量
7593 -
模型
+關注
關注
1文章
3243瀏覽量
48840 -
Pixel
+關注
關注
1文章
237瀏覽量
10010
原文標題:Pixel 的 Recorder 應用通過 Gemini Nano 將用戶參與度顯著提升了 24%
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論