依圖首席創(chuàng)新官呂昊12月12日午間消息,近日,人工智能公司依圖科技聯(lián)合微軟Azure推出依圖語音開放平臺,并與華為合作,發(fā)布智能語音聯(lián)合解
依圖首席創(chuàng)新官呂昊
12月12日午間消息,近日,人工智能公司依圖科技聯(lián)合微軟Azure推出依圖語音開放平臺,并與華為合作,發(fā)布“智能語音聯(lián)合解決方案”,將依圖的語音識別技術(shù)提供給第三方應用開發(fā)者。
依圖與微軟將聯(lián)合推出依圖語音開放平臺,是基于微軟Azure云,將語音識別技術(shù)能力開放給廣泛的第三方應用開發(fā)者。在聯(lián)合發(fā)布語音開放平臺之后,依圖與微軟還將在智能語音領(lǐng)域展開更深層次的合作,共建AI生態(tài)。
依圖與華為聯(lián)合發(fā)布的“智能語音聯(lián)合解決方案”,是基于依圖語音開放平臺及華為全棧全場景昇騰(Ascend)系列芯片和面向數(shù)據(jù)中心側(cè)的Atlas 300 AI加速卡,將雙方的技術(shù)研發(fā)能力與生態(tài)服務能力深度結(jié)合,形成軟硬件一體化的聯(lián)合解決方案。借助該解決方案,第三方應用開發(fā)者可進一步提升開發(fā)效率,使用到語音技術(shù)。
從目前的市場狀況來看,專攻語音語義技術(shù)商業(yè)化的先行者有科大訊飛、搜狗,以及云知聲、思必馳等創(chuàng)業(yè)公司。但相較于人臉識別的商業(yè)化發(fā)展速度而言,語音識別的發(fā)展仍較為緩慢。大多數(shù)識別情況都來自安靜、近場等受限場景。對于電話、語音節(jié)目、遠場等更復雜場景,則需要針對性地開發(fā)不同模型,但實際應用中的不確定性,使理想和現(xiàn)實仍有較大差距,導致應用場景難以得到更大突破。
依圖首席創(chuàng)新官呂昊告訴新浪科技,在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)僅為3.71%,領(lǐng)先原業(yè)內(nèi)領(lǐng)軍者約20%。此次公開發(fā)布相關(guān)產(chǎn)品,可以被視為依圖進入了語音識別技術(shù)落地的新領(lǐng)域。前景如何,仍有待市場考察。