趙貴華：中央廣播電視總臺(tái)AIGC技術(shù)研發(fā)與內(nèi)容生產(chǎn)

2024-10-17 21:26 | 來源：中國(guó)記協(xié)網(wǎng)

【字號(hào): 大中小】打印

Video PlayerClose

　　關(guān)于中央廣播電視總臺(tái)在AIGC技術(shù)研發(fā)與內(nèi)容生產(chǎn)方面的內(nèi)容分為三部分，一是總臺(tái)5G+4K/8K+AI發(fā)展進(jìn)程；二是總臺(tái)AIGC技術(shù)發(fā)展情況；三是結(jié)合實(shí)際應(yīng)用，介紹AIGC技術(shù)賦能總臺(tái)內(nèi)容生產(chǎn)。

　　2019年，總臺(tái)確立了從傳統(tǒng)技術(shù)路線向“5G+4K/8K+AI”技術(shù)路線轉(zhuǎn)變，積極發(fā)展5G、4K/8K超高清、AI人工智能技術(shù)，加快推動(dòng)新技術(shù)在內(nèi)容創(chuàng)作上的應(yīng)用。5G方面，發(fā)布了5G媒體應(yīng)用白皮書，研發(fā)了便攜式5G移動(dòng)背包，在北京冬奧會(huì)上支撐高鐵5G節(jié)目直播；4K/8K超高清方面，發(fā)布了總臺(tái)超高清制播規(guī)范，研發(fā)了一系列超高清制播設(shè)備，建立了全I(xiàn)P化超高清制播體系，在央視春晚等均得到很好的應(yīng)用。

　　AI方面，研發(fā)了AI虛擬切換伴隨制作技術(shù)、AI語音轉(zhuǎn)寫與合成、AI智能剪輯、AI視頻修復(fù)增強(qiáng)技術(shù)等。這些AI技術(shù)的應(yīng)用，極大地提高了總臺(tái)在內(nèi)容創(chuàng)作方面的效率，同時(shí)優(yōu)化了制播流程，節(jié)約了制作成本。

　　與5G、4K/8K超高清相比，總臺(tái)在AI研發(fā)方面相對(duì)偏少一些，但是，隨著AIGC技術(shù)的發(fā)展，總臺(tái)從去年開始快速跟進(jìn)，加大了AI人工智能在媒體領(lǐng)域的科研力度，積極推動(dòng)生成式AI技術(shù)在節(jié)目中制作應(yīng)用。

　　總臺(tái)作為國(guó)家級(jí)媒體，在AIGC技術(shù)發(fā)展方面，具有獨(dú)特的優(yōu)勢(shì)：一是能夠依托國(guó)家重點(diǎn)實(shí)驗(yàn)室的研發(fā)基礎(chǔ)，聯(lián)合國(guó)內(nèi)頭部企業(yè)，建立AIGC技術(shù)“產(chǎn)學(xué)研用” 一體化發(fā)展體系；二是擁有多知識(shí)、高質(zhì)量、多模態(tài)媒體語料數(shù)據(jù)，視頻248萬小時(shí)，獨(dú)立音頻65萬小時(shí)，可實(shí)現(xiàn)語料數(shù)據(jù)資源共享，降低大模型訓(xùn)練和研發(fā)成本，引領(lǐng)人工智能賦能媒體行業(yè)發(fā)展；三是具有豐富的媒體制播應(yīng)用場(chǎng)景，可將大模型能力與媒體垂直領(lǐng)域相結(jié)合，為媒體行業(yè)賦能，形成大模型行業(yè)示范效應(yīng)。

　　2023年7月，總臺(tái)聯(lián)合上海人工智能實(shí)驗(yàn)室發(fā)布了“央視聽媒體大模型”，以“書生通用大模型體系”為底座，充分融合了“書生?多模態(tài)”、“書生?浦語”等開源通用大模型技術(shù)特點(diǎn)，合作打造了面向視聽領(lǐng)域的生成式大模型。該模型全面覆蓋了分類、目標(biāo)檢測(cè)、語義分割、深度估計(jì)等關(guān)鍵任務(wù)，可通過持續(xù)學(xué)習(xí)更加精準(zhǔn)地識(shí)別圖像，在圖像標(biāo)桿任務(wù)上性能取得了顯著的提升，可為視聽媒體行業(yè)科研創(chuàng)新提供支持，為視聽媒體產(chǎn)業(yè)應(yīng)用賦能。

　　在2023年世界人工智能大會(huì)上，總臺(tái)牽頭與上海人工智能實(shí)驗(yàn)室等10家單位聯(lián)合發(fā)起大模型語料數(shù)據(jù)聯(lián)盟，為大模型發(fā)展提供高質(zhì)量、大規(guī)模、安全可信語料數(shù)據(jù)資源，保障大模型科研攻關(guān)及相關(guān)產(chǎn)業(yè)生態(tài)發(fā)展?？偱_(tái)積累了大量的視音頻和文稿等訓(xùn)練數(shù)據(jù)，可助力大模型語料數(shù)據(jù)聯(lián)盟打造多知識(shí)、多模態(tài)、標(biāo)準(zhǔn)化的高質(zhì)量語料數(shù)據(jù)集，通過鏈接模型訓(xùn)練、數(shù)據(jù)供給，探索可持續(xù)運(yùn)行的激勵(lì)機(jī)制，打造開放型的大模型語料數(shù)據(jù)生態(tài)圈。

　　今年2月，為了加快AIGC核心技術(shù)研究和創(chuàng)新應(yīng)用開發(fā)，總臺(tái)成立了人工智能工作室，全面統(tǒng)籌總臺(tái)人工智能發(fā)展規(guī)劃、技術(shù)研發(fā)、系統(tǒng)建設(shè)和節(jié)目應(yīng)用等工作。工作室一方面對(duì)接全臺(tái)各節(jié)目中心欄目和總臺(tái)廣播電視和新媒體媒資平臺(tái)，將節(jié)目制作需求轉(zhuǎn)化為“央視聽媒體大模型”能力需求；另一方面對(duì)接大模型算法和算力平臺(tái)，按照節(jié)目個(gè)性化需求對(duì)大模型進(jìn)行遷移學(xué)習(xí)和訓(xùn)練微調(diào)，從而快速形成適配特定業(yè)務(wù)的視聽節(jié)目創(chuàng)作大模型。同時(shí)，為加快推進(jìn)大模型研發(fā)應(yīng)用，總臺(tái)牽頭發(fā)起成立“央視聽媒體大模型”研發(fā)共同體，與國(guó)內(nèi)一流的科研機(jī)構(gòu)、高校和企業(yè)加強(qiáng)合作，秉持開放共享、積極創(chuàng)新、協(xié)作共贏的原則，在科研攻關(guān)、需求應(yīng)用、安全發(fā)展、產(chǎn)業(yè)生態(tài)等方面聯(lián)動(dòng)產(chǎn)業(yè)鏈上下游，為視聽媒體科研創(chuàng)新提供支持。

　　為規(guī)范總臺(tái)人工智能技術(shù)合理、安全、高效應(yīng)用，今年3月，總臺(tái)制定并發(fā)布了人工智能使用規(guī)范。規(guī)范包括4章24條，其目的是鼓勵(lì)總臺(tái)各部門積極探索人工智能的賦能作用，梳理節(jié)目制作需求和相關(guān)視聽數(shù)據(jù)，支持“央視聽媒體大模型”研發(fā)、訓(xùn)練及迭代，并引入國(guó)內(nèi)科研機(jī)構(gòu)共同打造的人工智能媒體平臺(tái)，支撐總臺(tái)節(jié)目制作，充分發(fā)揮人工智能技術(shù)優(yōu)勢(shì)，重構(gòu)總臺(tái)節(jié)目制播流程，提升制作效率，降低制作成本。

　　在深圳舉辦的“ 2024中國(guó)AI盛典”晚會(huì)上，總臺(tái)在發(fā)布了《人工智能發(fā)展白皮書》，明確提出了人工智能發(fā)展的四項(xiàng)基本原則，積極探索、推動(dòng)應(yīng)用，規(guī)范使用、確保安全，科技引領(lǐng)、提質(zhì)增效，開放包容、合作共贏；科學(xué)規(guī)劃人工智能在賦能媒體制播、引領(lǐng)媒體創(chuàng)新、重構(gòu)媒體生態(tài)等三方面舉措。為推動(dòng)總臺(tái)人工智能媒體應(yīng)用，總臺(tái)已制定了人工智能技術(shù)系統(tǒng)建設(shè)規(guī)劃，包括IT基礎(chǔ)資源支撐平臺(tái)、多模態(tài)語料供給平臺(tái)、多模態(tài)語料治理平臺(tái)、多模態(tài)媒體大模型研發(fā)平臺(tái)和多模態(tài)媒體大模型應(yīng)用平臺(tái)。

　　總臺(tái)運(yùn)用央視聽媒體大模型，完成了中國(guó)首部文生視頻AI系列動(dòng)畫片《千秋詩(shī)頌》的制作，提升了動(dòng)畫創(chuàng)作效率，擴(kuò)展了視覺創(chuàng)意空間?！把胍暵犆襟w大模型” 利用總臺(tái)動(dòng)畫類大數(shù)據(jù)對(duì)片中詩(shī)詞涉及到的人物、場(chǎng)景和器物進(jìn)行中國(guó)審美風(fēng)格的美術(shù)算法訓(xùn)練，將中華古典詩(shī)詞的博大精深與現(xiàn)代視聽藝術(shù)完美結(jié)合，通過唯美的國(guó)風(fēng)動(dòng)畫形式，讓更多的人尤其是青少年，創(chuàng)新感受中華文脈的勃勃生機(jī)和獨(dú)有魅力，在內(nèi)心深處根植深厚的文化自信。動(dòng)畫片《千秋詩(shī)頌》2月26日播出，取得了良好的傳播效果。

　　總臺(tái)在2019年就開始研發(fā)通過AI技術(shù)對(duì)視頻和圖像進(jìn)行修復(fù)增強(qiáng)技術(shù)，并在建黨百年《偉大征程》和北京冬奧會(huì)上得到應(yīng)用，近年來，AI視頻增強(qiáng)系統(tǒng)開始利用生成式AI技術(shù)來提升AI修復(fù)增強(qiáng)的能力和性能，特別是彌補(bǔ)判別式AI模型所不具備的圖像細(xì)節(jié)生成能力，支持AIGC視頻超分和人臉增強(qiáng)等功能，對(duì)有價(jià)值的低質(zhì)量語料進(jìn)行修復(fù)增強(qiáng)，具備將標(biāo)清、高清素材修復(fù)增強(qiáng)為超高清素材，同時(shí)可與總臺(tái)現(xiàn)有判別式超分、插幀進(jìn)行級(jí)聯(lián)，提升圖像清晰度和質(zhì)量，同時(shí)，構(gòu)建面向真實(shí)應(yīng)用具有國(guó)產(chǎn)化特色的視頻數(shù)據(jù)集，可用于各種視頻生成模型的訓(xùn)練和測(cè)試，并提供VQA視頻質(zhì)量評(píng)價(jià)模型。

　　在今年4月成都湯尤杯羽毛球賽事中，“央視聽媒體大模型” 研發(fā)的體育技戰(zhàn)術(shù)分析模型，通過在賽場(chǎng)內(nèi)設(shè)置多個(gè)特定角度的機(jī)位采集比賽視頻信號(hào)，完全基于視頻內(nèi)容對(duì)運(yùn)動(dòng)員動(dòng)作以及球的運(yùn)動(dòng)軌跡進(jìn)行捕捉、對(duì)比和分析。徹底摒棄了傳統(tǒng)的依賴于穿戴式硬件來進(jìn)行測(cè)量與動(dòng)作跟蹤的方法，并實(shí)時(shí)進(jìn)行三維重建和虛擬3D測(cè)量，做到了“零穿戴、零感知”地獲取比賽關(guān)鍵參數(shù)信息，如羽毛球的最大過網(wǎng)速度、最大網(wǎng)前過網(wǎng)角度、運(yùn)動(dòng)員最大起跳高度、移動(dòng)距離等。實(shí)時(shí)計(jì)算出羽毛球比賽中關(guān)鍵參數(shù)并以圖文、視頻渲染等多元化方式呈現(xiàn)在電視屏幕上，為賽事直播以及賽后技戰(zhàn)術(shù)分析提供有力數(shù)據(jù)支撐，滿足廣大電視觀眾智慧觀賽的需求。

　　在剛剛結(jié)束的巴黎奧運(yùn)會(huì)，我們對(duì)央視聽媒體大模型體育模塊進(jìn)行了優(yōu)化升級(jí)，采用最新算法并完全基于OBS 公共信號(hào)進(jìn)行計(jì)算分析，技術(shù)人員無需去巴黎賽事前方，通過回傳總臺(tái)后方節(jié)目信號(hào)即可完成遠(yuǎn)程制作，，與總臺(tái)前方人工智能制作系統(tǒng)形成了差異化互補(bǔ)，共同打造了總臺(tái)全方位、多角度、立體化AI 體育轉(zhuǎn)播盛宴。一是技戰(zhàn)術(shù)分析模型，運(yùn)用單視頻空間虛擬測(cè)量和3D重建技術(shù)從巴黎前方傳回的公共信號(hào)畫面中自動(dòng)精準(zhǔn)識(shí)別并抽取有效的技戰(zhàn)術(shù)分析視頻，準(zhǔn)確分析出球的過網(wǎng)速度以及高度、吊球角度、球員位移、落點(diǎn)預(yù)測(cè)估計(jì)及壓線質(zhì)量等關(guān)鍵技戰(zhàn)術(shù)參數(shù)。成功應(yīng)用于網(wǎng)球、羽毛球等賽事節(jié)目制作。二是時(shí)間切片模型，運(yùn)用自主研發(fā)的智能圖像分割和拼接技術(shù)對(duì)視頻信號(hào)中的運(yùn)動(dòng)鏡頭進(jìn)行分析并實(shí)時(shí)完成時(shí)間切片場(chǎng)景重建，大幅降低現(xiàn)場(chǎng)硬件設(shè)備部署成本。三是風(fēng)格化轉(zhuǎn)繪模型，運(yùn)用中國(guó)傳統(tǒng)藝術(shù)風(fēng)格等自定義轉(zhuǎn)繪風(fēng)格，將賽事圖片、視頻用AIGC 技術(shù)轉(zhuǎn)繪成不同畫風(fēng)的素材，多次應(yīng)用于CGTN 英語頻道奧運(yùn)獎(jiǎng)牌榜、央視頻巴黎奧運(yùn)中國(guó)40 金轉(zhuǎn)繪回顧等場(chǎng)景。

　　在今年的世界人工智能大會(huì)上，總臺(tái)聯(lián)合北京新影聯(lián)影業(yè)公司發(fā)布動(dòng)畫電影《團(tuán)圓令》的啟動(dòng)儀式，《團(tuán)圓令》大電影是以大熊貓團(tuán)團(tuán)圓圓為原型，以促進(jìn)青少年文化交流為宗旨的原創(chuàng)動(dòng)漫IP，電影將由新影聯(lián)作為發(fā)行單位，由總臺(tái)牽頭，依托央視聽媒體大模型，為負(fù)責(zé)電影制作的北京灌木公司提供AIGC技術(shù)支持。影片制作將顛覆以往電影生產(chǎn)模式，開創(chuàng)全新的AI動(dòng)畫電影生產(chǎn)流程，實(shí)現(xiàn)從角色設(shè)計(jì)、場(chǎng)景構(gòu)建到動(dòng)畫渲染全鏈路的高效創(chuàng)作。

　　最近，我們?cè)诮ㄔO(shè)總臺(tái)AIGC內(nèi)容生產(chǎn)平臺(tái)，主要是在央視聽媒體大模型的基礎(chǔ)上，聯(lián)合大模型研發(fā)共同體的合作企業(yè)，從媒體內(nèi)容制作的角度，梳理采編播流程，，在文本創(chuàng)作、圖像創(chuàng)作、視頻編創(chuàng)方面深入引入AIGC內(nèi)容創(chuàng)作，計(jì)劃月底開始在總臺(tái)內(nèi)部提供測(cè)試使用。

　　總臺(tái)在人工智能媒體應(yīng)用平臺(tái)中將建設(shè)基礎(chǔ)資源支撐平臺(tái)、多模態(tài)語料供給平臺(tái)、多模態(tài)語料管理與治理平臺(tái)、大模型研發(fā)平臺(tái)和大模型應(yīng)用平臺(tái)，構(gòu)建語料供給-語料治理-大模型訓(xùn)練-賦能媒體制播-語料再生成的閉環(huán)體系，全流程實(shí)現(xiàn)生成式人工智能從語料訓(xùn)練到大模型落地的實(shí)際應(yīng)用。

　　最后，做一個(gè)簡(jiǎn)單總結(jié)，一是總臺(tái)積極研發(fā)AIGC技術(shù)，完善央視聽媒體大模型功能模塊，尤其在動(dòng)畫制作、影視譯制、體育轉(zhuǎn)播和智能編輯方面提供內(nèi)容創(chuàng)作和實(shí)際應(yīng)用；二是依托總臺(tái)人工智能工作室，推動(dòng)總臺(tái)AIGC內(nèi)容高效創(chuàng)作，賦能總臺(tái)節(jié)目生產(chǎn)；三是以總臺(tái)豐富的媒體制播場(chǎng)景為試驗(yàn)基礎(chǔ)，以媒體行業(yè)應(yīng)用為導(dǎo)向，重構(gòu)媒體生態(tài)加快形成新質(zhì)生產(chǎn)力；四是以總臺(tái)多知識(shí)、高質(zhì)量、多模態(tài)媒體語料數(shù)據(jù)為基礎(chǔ)，形成統(tǒng)一語料集，形成資源共享，促進(jìn)我國(guó)人工智能產(chǎn)業(yè)升級(jí)。（作者系中央廣播電視總臺(tái)超高清視音頻制播呈現(xiàn)國(guó)家重點(diǎn)實(shí)驗(yàn)室副主任）

責(zé)任編輯: 楊涵

趙貴華：中央廣播電視總臺(tái)AIGC技術(shù)研發(fā)與內(nèi)容生產(chǎn)

相關(guān)稿件