11月15日訊,在第五屆Kaldi技術(shù)交流會(huì)上,Kaldi之父Daniel Povey博士與來(lái)自北京各大互聯(lián)網(wǎng)公司、知名高校的開發(fā)者們深入交流下一代Kaldi社區(qū)未來(lái)的發(fā)展。
Daniel Povey博士目前擔(dān)任小米集團(tuán)語(yǔ)音首席科學(xué)家,由他開發(fā)和維護(hù)Kaldi 集成了多種語(yǔ)音識(shí)別模型,是業(yè)界語(yǔ)音識(shí)別框架基石。加入小米一年,Daniel Povey設(shè)計(jì)并開發(fā)出了新一代Kaldi。新一代Kaldi分成三個(gè)部分,包括核心算法部分,訓(xùn)練數(shù)據(jù)準(zhǔn)備部分、示例腳本集合部分。
據(jù)介紹,其中,Lhotse(訓(xùn)練數(shù)據(jù)準(zhǔn)備部分)將替代以前Kaldi中所有數(shù)據(jù)準(zhǔn)備相關(guān)的工作,操作各種音頻和文本的元數(shù)據(jù)。Lhotse除了Kaldi本身,也適用于其他應(yīng)用。而且Lhotse純Python代碼,方便易用。
Icefall(示例腳本集合部分)將代替Kaldi中的示例腳本集合,并獨(dú)立成為一個(gè)單獨(dú)的子項(xiàng)目。之所以要把示例腳本集合與核心算法分開,是考慮到示例腳本可能會(huì)非常龐大,且經(jīng)常變動(dòng)。
新一代Kaldi的核心部分叫“k2”。k2可以讓開發(fā)者很容易在PyTorch/TensorFlow中實(shí)現(xiàn)各種語(yǔ)音識(shí)別相關(guān)算法,比如CTC、LF—MMI、RNN—T、2nd—pass語(yǔ)言模型等,消除以往語(yǔ)音識(shí)別算法中訓(xùn)練跟解碼不匹配的問(wèn)題。同時(shí),通過(guò)k2可以實(shí)現(xiàn)(置信度逐漸提高的)多輪解碼過(guò)程。
Daniel Povey博士透露,k2核心代碼已完成。約41000行代碼(主要是C++),本周剛發(fā)布0.1版本。他在本次線下活動(dòng)中強(qiáng)調(diào):“今天有太多人依托Kaldi在做自己的事業(yè),有很多人為Kaldi社區(qū)一直在做貢獻(xiàn),Kaldi會(huì)始終堅(jiān)持開源。”
小米集團(tuán)副總裁、技術(shù)委員會(huì)主席崔寶秋指出,擁抱開源是小米工程文化的重要組成部分。崔寶秋在接受藍(lán)鯨TMT記者專訪時(shí)表示,Kaldi的一些語(yǔ)音技術(shù)與代碼已經(jīng)在一些小米的產(chǎn)品線使用,未來(lái)其語(yǔ)音技術(shù)將在小米的手機(jī)、音箱、電視以及更多智能家居與智能穿戴設(shè)備中使用,小米非常重視語(yǔ)音技術(shù)。
責(zé)任編輯:PSY
-
算法
+關(guān)注
關(guān)注
23文章
4622瀏覽量
93067 -
核心技術(shù)
+關(guān)注
關(guān)注
4文章
625瀏覽量
19631 -
開源
+關(guān)注
關(guān)注
3文章
3371瀏覽量
42580 -
小米
+關(guān)注
關(guān)注
70文章
14367瀏覽量
144421
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論