梦入神机,完美世界辰东小说下载,已完本玄幻小说排行榜

本文來自花椒直播海外技術負責人唐賡在LiveVideoStackCon 2017上的分享，并由LiveVideoStack整理而成，在分享中唐賡詳細介紹了直播的基本組成部分以及ARKit、3D引擎、深度學習等技術在直播場景下的應用。

大家好，我是唐賡，現就職于花椒直播。主要負責iOS和一些新技術的應用。本次的分享內容主要是介紹一下我們包括個人對直播這項新技術應用的一些看法。

1. 直播的基本組成部分

直播行業大約是在2015開始火起來，由于是剛起步，所以整個直播行業不是特別成熟。在早期時甚至會出現音畫不同步等一些基礎的問題。之后也做了很多的工作，比如直播視頻秒開的優化，包括網絡自適應、碼率自適應、分辨率以及幀率的自適應。對于碼率自適應，在點播的場景下，服務器會事先準備幾段不同碼率的視頻，觀眾根據不同的需要、網絡狀況從服務器上拉取不同的碼流。但是在直播的場景下，網絡自適應更多的是發生在主播端，比如當主播的網絡不太好時，我們就會根據上行的碼流情況來實時的進行調整，包括調整視頻的分辨率、碼率、幀率。然后對于超大型的聊天室或者一些直播網站，就要求每個直播間能夠承受百萬量級并發的在線用戶，包括私信、群組，這都是我們過去已經做過的一些優化工作。

隨著直播行業的發展，單向的直播已經沒有什么新意了，現在大家開始關注連麥、一對一的單聊、群聊等。這些功能在我們的APP中都已經實現了，包括上層的展現，比如美顏、濾鏡、瘦臉、大眼、人臉識別貼紙、3D頭盔等等。我們在2015年5月份左右起步做直播，這些都是我們在這兩年里做過的一些事情，目前這些功能已經逐漸成為直播APP的標配，那么下一步該如何去做？在我個人認為至少可以關注以下方面，如Augment Reality，Computer Graphics、Computer Vision以及Machine Learning.，接下來將分別給大家介紹一下這四個方面。

2. Augment Reality

首先是人臉識別技術，從2016年開始已經初步實現，而我們可以說是第一個把這項技術應用到直播場景中的。2016年初，我們發現手機上實時的人臉識別非常消耗CPU內存，因此就可能導致直播卡頓，無法播放。為了解決這個問題，我們當時進行了非常多的優化，比如，最先在有限的手機資源之上實現了實時的人臉貼紙功能。但當時人臉識別的SDK普遍的CPU消耗都在50%以上，甚至蘋果自己提供的人臉識別的消耗都在80%以上，而且抖動非常厲害。到了2017年，在不斷的優化之后，人臉識別在手機上的應用就非常成熟了。

現在基于ARKit、ARCore、SenseAR或者是基于IMU都可以實現很多玩法，比如利用AI/AR可以實現手勢識別與真實場景的結合。那么AR可以怎么利用呢？從一些小視頻可以看到，拍攝者與表演者以及一些動畫效果要配合的很好才能實現AR特效，但是這些都是假的AR，而我們用AR技術就完全可以把這些做成真的。另外，基于AR在直播間里的視頻上面展現一些廣告或者好玩的東西，這實際也是比較經典的AR應用。

3. Computer Fraphics

AR可以反饋一些基本場景的認知信息，包括平面在哪里，墻在哪里等。那么如何在上面疊加這些場景，這就需要基于圖形學的一些技術。最常見的就是基于OpenGL/Metal提供的一些API去實現，當然也有利用像Unity、Unreal之類相對成熟的引擎，包括蘋果提供的SceneKit 3D引擎。另外就是利用一些開源的引擎，比如Cocos2d-x、Crystal Space、Blender Game Engine，它們的功能也都比較強。像Cocos2DX目前已經發展出比較強的3D能力，它能夠展現骨骼動畫以及一些比較復雜的光影效果。如果能力足夠也可以開發自制引擎，據我所知，國內的很多游戲廠商比如騰訊、暢游、搜狐，他們用的都是自己研發的強大引擎。

4. Computer Vision

直播行業目前對計算機視覺的依賴也變得非常的強烈。計算機視覺的開源實現主要體現在兩個開源庫，分別是OpenCV和Dlib。OpenCV是由Intel發布的一個非常強大的視覺庫。包括實時計算機視覺、機器學習，包括一些圖像處理、分析等基本都離不開它，而且它的代碼實現非常的簡單快速。Dlib的使用非常方便，而且它自帶了它所依賴的一些東西，包括網絡、線程、GUI、各種各樣的線性代數、機器學習、圖像處理等各種模塊。它最大的一個優勢是自帶強大的人臉識別引擎。接下來可以看一下基于OpenCV和Dlib實現的一些功能。

A.人臉朝向識別

從上面這幅圖可以看到，根據Dlib給出的人臉關鍵點坐標信息，計算出了人臉的朝向，人臉前面的這根紅線就是顯示出了人臉的朝向。基于人臉關鍵點坐標、朝向信息，就可以實現比較炫酷的3D頭盔功能，此處例子的實現目前在網上有開源的代碼可以進行參考。

B.精確估算手勢位置和姿勢

從上圖可以看到，在直播中可以精確的估算主播的手指頭的位置以及姿勢，主播可以利用這種技術完成很多有趣的交互。

目前，在PC上已經可以實現對于一個場景中多個人的復雜的肢體運動的實時識別。但是面臨的一個非常大的挑戰是如何將這個能力內嵌到手機APP中，如果能夠做到這一點，那么就可以把主播跳舞之類的身體動作實時截取出來并與動畫人偶相結合，會使得整個直播間顯得非常生動。

5. Machine Learning

接下來簡單介紹一下機器學習。機器學習在直播中已經有了很多的運用，比如人臉識別、物體識別、手勢識別、背景分割摳像等，再進一步的運用就是實時翻譯、跨語種連麥、畫質改進以及自動生成主播漫畫人偶。

機器學習的運用除了此前介紹到的一些前臺功能，還具有后臺功能，包括實時判斷主播的性別年齡、顏值才藝類型、識別場景、口才打分、人氣等。

下面幾頁PPT簡單介紹一下深度學習的一些入門知識。上面展現的是Google的一個Neural Network Playground ，在playground.tensorflow.org上可以看到，可以嘗試設計自己的神經網絡，了解深度學習的過程。（DEMO）。實際上深度學習就是在不斷地調整它的超參數，增加深度學習的深度以及細胞的數量。現在所謂的深度學習的研究實際上就是用各種各樣的排列組合來找出一種網絡結構能夠更適合的解決某一類問題。

上面列出了各種開源的網絡結構，它們都是由各種學術機構花了很多的時間精力找出的比較適合解決某些問題的網絡結構。當網絡結構越復雜時，訓練模型的時間就越久。

這是一個簡單的深度學習的例子，其中高亮的幾行是對網絡結構的描述。它使用Keras/TensorFlow訓練模型，在進行了一千次迭代之后，誤差就降到了千分之四，我們就可以認為訓練出來的模型已經學會了異或運算法則。

前面例子中訓練出來的模型可以直接放在CoreML中使用，運行出來的結果可以在上圖中的輸出看到，所以說CoreML開發過程是非常簡單快速的。

上面這個例子也是實現判斷異或功能，但是它沒有依賴任何框架，只是利用了一個最基本的數學運算庫，這個例子可以看到深度學習核心算法的工作原理，右邊是訓練跑出來的結果，可以看到最終得到的結果跟前面的一樣。所以深度學習就是這么簡單暴力。

綜上所述，有這么多的技術等著我們去把它放到直播中使用，我覺得后面的前景還是非常廣闊的，我們還有很多事情要去做。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

深度學習

深度學習

+關注

關注
73

文章
5506

瀏覽量
121265
arkit

arkit

+關注

關注
0

文章
23

瀏覽量
11279

原文標題：從CV到ML 直播場景下新技術的應用

文章出處：【微信號：livevideostack，微信公眾號：LiveVideoStack】歡迎添加關注！文章轉載請注明出處。

什么叫3D微波技術

當3D電影已成為影院觀影的首選，當3D打印已普及到雙耳無線藍牙耳機，一種叫“3D微波”的技術也悄然而生。初次聽到“3D微波”，你可能會一臉茫

發表于 07-02 06:30

3D TOF深度剖析

這段時間以來，最熱的話題莫過于iPhone X的Face ID，關于用它刷臉的段子更是滿天飛。其實iPhone X 實現3D視覺刷臉是采用了深度機器視覺技術(亦稱3D機器視覺)。由于i

發表于 07-25 07:05

全球3D芯片及模組引領者，強勢登陸中國市場

感知、計算到系統一體化的解決方案。銀牛3D機器視覺模組C158在人工智能、機器人、物聯網等產業快速發展的背景下，機器視覺技術正步入新的階段。

發表于 11-29 11:03

HDC2021技術分論壇：酷炫3D效果在瘦設備上也能實現？

，這些引擎往往會對不同的硬件平臺做抽象，提供一站式的統一開發框架，讓開發者在開發應用時無需關注硬件平臺的差異性。這雖然給開發者帶來了便利，但在一些輕量級3D場景

發表于 12-21 10:40

基于深度學習和3D圖像處理的精密加工件外觀缺陷檢測系統

檢測，檢測準確性和檢測穩定性較差、容易誤判。基于深度學習和3D圖像處理的精密加工件外觀缺陷檢測系統創新性結合深度學習以及

發表于 03-08 13:59

全球首家支持OpenHarmony的3D引擎，Cocos Creator 3.6.1社區版發布

前言2021年，Cocos 正式成立專項項目組，協同華為團隊對 OpenHarmony 2D 及 3D 內容的開發流程與效率進行深度優化。目前已在 Cocos Creator 3.6.1 的基礎上

發表于 10-19 14:17

構件化嵌入式3D引擎的研究與設計

本文研究了嵌入式3D引擎的特征，并給出了一個基于構件技術的嵌入式3D引擎ElaDX的設計框架和初步實現。該

發表于 05-30 09:14 ?17次下載

3D圖像引擎,3D圖像引擎原理

3D圖像引擎,3D圖像引擎原理產生的背景和定義隨著計算機軟、硬件突飛猛進的發展，計算機圖形學在各個行業的應用也得

發表于 03-26 15:54 ?1467次閱讀

阿里3D AI技術已成功應用諸多場景中,可迅速批量生產高質量3D模型

阿里資深算法專家樂田表示：“3D重建是3D機器學習的核心，只有在高質量3D數據集支持下，工業級

發表于 08-26 13:50 ?1583次閱讀

探討關于3D視覺技術和3D傳感器

年內得到快速發展。與深度學習算法結合，在智能制造/機器人、自動駕駛、AR/VR、SLAM、無人機、三維重建、人臉識別等領域取得了優異的效果。 3D

發表于 04-01 14:01 ?4677次閱讀

HarmonyOS 3D渲染引擎介紹

隨著3D技術的應用普及，越來越多的場景都能看到3D的身影，比如充電動效、3D壁紙、游戲等等，給用戶帶來了更有趣、更豐富的體驗。要滿足用戶的

發表于 12-23 09:49 ?4402次閱讀

基于深度學習的3D視覺引導系統在引導工件上下料中的應用

基于深度學習的3D視覺引導工件上下料，系統穩定，識別速度快，整體抓取放置節拍控制在8s以內

發表于 10-17 17:31 ?1171次閱讀

3D模型場景展示哪個平臺做的好？

近幾年，隨著3D建模技術的飛速進步，3D內容的創作展現形式也在快速地推陳出新。許多展廳、展會、展品都開始與3D、VR、Al

發表于 12-30 15:39 ?1079次閱讀

超詳細的3D視覺技術學習路線

的前沿。近年來，3D視覺技術快速發展，并開始結合深度學習算法，在智能制造、自動駕駛、AR/VR、SLAM、無人機、三維重建、人臉識別

發表于 04-16 10:36 ?1318次閱讀

基于深度學習的3D點云實例分割方法

3D實例分割（3DIS）是3D領域深度學習的核心問題。給定由點云表示的 3D

發表于 11-13 10:34 ?2453次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

ARKit、3D引擎、深度學習等技術在直播場景下的應用

評論

什么叫3D微波技術

3D TOF深度剖析

全球3D芯片及模組引領者，強勢登陸中國市場

HDC2021技術分論壇：酷炫3D效果在瘦設備上也能實現？

基于深度學習和3D圖像處理的精密加工件外觀缺陷檢測系統

全球首家支持OpenHarmony的3D引擎，Cocos Creator 3.6.1社區版發布

構件化嵌入式3D引擎的研究與設計

3D圖像引擎,3D圖像引擎原理

阿里3D AI技術已成功應用諸多場景中,可迅速批量生產高質量3D模型

探討關于3D視覺技術和3D傳感器

HarmonyOS 3D渲染引擎介紹

基于深度學習的3D視覺引導系統在引導工件上下料中的應用

3D模型場景展示哪個平臺做的好？

超詳細的3D視覺技術學習路線

基于深度學習的3D點云實例分割方法