“昨晚 OpenAI 正式發布了 o3 模型,AI 圈一片沸騰。作為電子工程師的我撓了撓頭,好像和我沒什么直接的關系倒是 OpenAI 的另一個小發布,讓我很感興趣:一個可以在 Linux 和 ESP32 上使用的 Realtime API SDK。”
對,就是上面這個項目,剛發布沒多久,文檔都幾乎沒有。感興趣的小伙伴可以自己去看一下: https://github.com/openai/openai-realtime-embedded-sdk 這個 SDK 能干嘛?
這個 SDK 主要是給嵌入式硬件設計的,目前只支持樂鑫的 ESP32s3。以下是經過驗證的兩個開發板:
Freenove ESP32-S3-WROOM
Sonatino - ESP32-S3 Audio Development Board
其它的 ESP32-S3 硬件理論上也能跑,只是沒有經過驗證。 當然如果你只想玩一下,也可以不用任何硬件,直接在 Linux 上運行。
SDK 基于 OpenAI 最新的 WebRTC,可以提供低延時的語音對話服務。Altman 在發布會上演示的 AI 實時語音對話、打斷等就是基于 WebRTC。感興趣的小伙伴可以看一下 WebRTC 的介紹:
https://platform.openai.com/docs/guides/realtime-webrtc
配置完成后build一下,然后燒錄到 ESP32S 的固件里即可。接下去就可以直接調用 API 了。這種方式簡化了硬件調用實時語音,甚至視覺識別的方法,典型的應用有:
陪伴類的玩具
可穿戴設備
智能音箱/語音助手
國內有平替嗎?
如果用不了 OpenAI,國內其實也有類似的服務,比如火山引擎的 RTC:
https://www.volcengine.com/product/veRTC
字節推出的顯眼包2.0用的就是 RTC 服務:
在上周的“2024火山引擎冬季Force原動力大會”上,已經有不少硬件廠商展示了基于 RTC 的產品demo。其中有一個品牌“Haivivi”做了現場演講,分享了他們的理念和創業經歷。雖然只是一個“可以對話”的玩具,卻有別于傳統的智能音箱,得到了很多用戶的認可。我在現場也體驗了一下RTC的效果,延時在2~5秒之間,基本可以滿足實時對話的要求。
字節的產品經理也提到了嵌入式的 SDK,但沒有詳細公布支持的硬件型號,估計還處于測試階段。但毫無疑問,ESP肯定是合作伙伴之一。
“端插件”是什么?
專題論壇中還提到了“端”插件的概念。簡單說就是把硬件的功能(比如調節音量、驅動電機等)以插件的形式注冊在大模型的平臺,端側的硬件只要收集用戶的輸入,傳輸到大模型后由模型進行數據處理并根據解析的結果調用“端”插件執行硬件端的動作。
這種范式有可能降低硬件端的成本(因為端側不再需要算力,只要做輸入、輸出及信息交互),并有可能降低開發的時間(可以很快添加語音識別、圖像識別等功能,因為不用基于硬件開發,可以直接丟給模型處理)。這里的潛臺詞是:類似語音交互、圖像識別的任務,大模型一定比本地的硬件做的好。當然前提是要能接受數據傳輸和處理的延時,另外數據安全也是需要考慮的因素之一。
結束語 人工智能技術尤其是大模型和AIGC正以前所未有的速度迅猛發展,它們的影響力已經滲透到各個行業,包括電子硬件領域。作為電子硬件工程師,我們站在技術革新的前沿,面臨著前所未有的機遇與挑戰。我們必須深入思考,如何將AIGC等前沿技術與硬件設計相結合,以實現創新突破。打造出更智能、更高效、更符合市場需求的產品,從而在激烈的市場競爭中占據有利地位。
注意:如果想第一時間收到 KiCad 內容推送,請點擊下方的名片,按關注,再設為星標。
常用合集匯總:
和 Dr Peter 一起學 KiCad
KiCad 8 探秘合集
KiCad 使用經驗分享
KiCad 設計項目(Made with KiCad)
常見問題與解決方法
KiCad 開發筆記
插件應用
發布記錄
審核編輯 黃宇
-
API
+關注
關注
2文章
1500瀏覽量
62011 -
SDK
+關注
關注
3文章
1036瀏覽量
45935 -
ESP32
+關注
關注
18文章
971瀏覽量
17257 -
OpenAI
+關注
關注
9文章
1087瀏覽量
6508
發布評論請先 登錄
相關推薦
評論