火山引擎引領“AI+視頻雲”融合創新,開啓智能視頻新時代
(原標題:火山引擎引領“AI+視頻雲”融合創新,開啓智能視頻新時代)
近日,國際數據公司(IDC)發佈的《中國視頻雲市場跟蹤(2024下半年)》報告顯示,2024下半年中國視頻雲市場規模達到50.8億美元,同比增長4.7%。火山引擎憑藉在視頻內容分發網絡服務、直播雲服務及音視頻通信雲服務等領域的持續突破,進一步鞏固了市場競爭優勢。
此次報告中,IDC還首次增設了AI視頻雲Add-on跟蹤研究。火山引擎視頻雲依託豆包大模型,憑藉在AI領域的積極探索與廣泛實踐,成爲同時入選“AI實時互動”與“智能媒體生產”兩大細分項類的廠商,尤其在“智能媒體生產”領域,更是位列行業第一。這一成績彰顯了火山引擎在"AI+視頻雲"融合創新賽道的技術實力。
如今,我們正從高清流暢的數字視頻時代邁向更智能、更交互、更沉浸的AI視頻時代。隨着視頻雲技術迭代和多模態大模型突破,"音視頻+AI"正打破場景壁壘,重塑溝通方式、重構內容生產流程,爲用戶帶來全新體驗。
作爲技術革新引領者,火山引擎視頻雲將豆包大模型和AI能力深度融入音視頻全鏈路,實現了從生產端、交互端到消費端的全面智能化升級,推動行業進入“智造- 智聯-智享”的新階段。
在生產端,火山引擎視頻雲融合豆包大模型 AIGC、ASR 等技術,實現多模態內容的高質、高效生產。其多模態視頻理解與生成方案可自動提取視頻高光並生成解說內容,讓字幕識別錯誤率降低了30%,90集短劇的營銷視頻素材生產效率提升20倍。目前,該方案已覆蓋賽事、直播電商、教育和節目製作等場景。
爲了讓內容生成更加豐富有趣,火山引擎還爲電商打造了多模態素材生成方案,支持自動生成商品氛圍圖、圖文解說視頻及3D模型等多元營銷素材,實現高效多模態內容創作。生產端的升級,並不止於視頻畫面,聲影同傳方案融合精準字幕、聲音復刻和虛擬口型技術,大幅優化觀衆視聽體驗。
在交互端,火山引擎通過 RTC 技術與TTS語音合成的融合,提升人與AI交互的真實感與流暢度。該方案已經廣泛落地於智能助手、AI陪伴、AI教育、智能客服等場景。比如,在兒童陪伴場景,針對孩子們語速慢、表達不連貫等特點,火山引擎優化了實時打斷速度和斷句識別準確度,創造一個更加友好和鼓勵性的交流環境。在AI社交陪伴場景,通過智能匹配輸出內容與方式,結合語音與文字構建對話場景及情感背景,讓交互體驗更自然真實。
在消費端,火山引擎持續推動虛實融合的沉浸式體驗落地。依託 Beaver 3D生成模型,用戶1分鐘就可以生成高保真3D資產;通過大場景3D重建方案,實現了對真實場景的高質量幾何構建與外觀重建渲染,廣泛應用於虛擬直播、VR直播等場景中。此外,藉助6DOF 直播技術,觀衆還可360度自由視角觀看直播內容。
當前,行業客戶正積極抓住AI帶來的增長機遇,推動視頻雲市場進入新一輪的增長週期。火山引擎憑藉其在“AI+視頻雲”領域的領先地位和持續創新,將繼續引領行業的發展,爲用戶提供更加智能、高效、沉浸式的音視頻體驗。