北京中科聞歌科技股份有限公司副總裁文皓：“人工+智能”共創(chuàng)內(nèi)容生產(chǎn)新范式

2024-10-17 21:21 | 來源：中國記協(xié)網(wǎng)

【字號: 大中小】打印

Video PlayerClose

　　中科聞歌源自中科院，創(chuàng)始團隊2007年在自動化研究所承擔(dān)國家互聯(lián)網(wǎng)大數(shù)據(jù)的各種項目，沉淀了技術(shù)和產(chǎn)品。2017年中科院鼓勵科學(xué)家創(chuàng)業(yè)，走出了舒適區(qū)，經(jīng)過市場化的洗禮，一路走來，得到了中科院基金、中網(wǎng)投、央視新媒體基金等國家資本的投資，又紅又專的人工智能領(lǐng)先企業(yè)。去年研發(fā)訓(xùn)練了雅意大語言模型，今年8月底發(fā)布YOYA多模態(tài)文生視頻平臺。

　　聞歌的大數(shù)據(jù)和人工智能技術(shù)積累，針對不同行業(yè)的場景需求，推出紅旗融媒體智能平臺，晴天多模態(tài)媒體洞察平臺，多投智能投研平臺等系列產(chǎn)品方案，賦能千行百業(yè)。研發(fā)服務(wù)多個國家級標桿項目，中間是全球輿論態(tài)勢感知平臺。

　　今年2月，OpenAI的Sora發(fā)布，讓內(nèi)容產(chǎn)業(yè)的從業(yè)人員感到驚艷和震撼！Sora作為一個素材生成器拓展了素材獲取的途徑，但大模型賦能多媒體內(nèi)容創(chuàng)作仍需要做大量工作。我們把多媒體內(nèi)容的生產(chǎn)過程拆解，就可以看到，AI 好像還可以干很多事情，從創(chuàng)意腳本到分鏡到素材檢索到旁白配音到剪輯等等。直接使用AI工具輔助內(nèi)容生產(chǎn)的體驗并不是特別好！這很正常！因為OpenAI發(fā)布Chatgpt、Sora是在走通用人工智能之路，而不是為內(nèi)容產(chǎn)業(yè)量身定制的系統(tǒng)。這需要我們這樣的人工智能企業(yè)深入到內(nèi)容產(chǎn)業(yè)的場景中，根據(jù)需求和高質(zhì)量的數(shù)據(jù)研發(fā)訓(xùn)練各種系統(tǒng)工具。

　　內(nèi)容生產(chǎn)離不開文圖音視四種模態(tài)。第一代創(chuàng)意制作全由人工實現(xiàn)，比如說：靠人的寫文字+手繪圖發(fā)行報紙書籍；第二代：人工創(chuàng)意+輔助制作工具，比如說：電腦軟件Word，PS、AE輔助創(chuàng)作；第三代：人與AI共創(chuàng)新模式，AI既是人靈感的拓展，也是創(chuàng)作的伙伴。比如說：你有一個想法扔給AI，他可以給你編腳本，給你出視頻，這就變成你的創(chuàng)意，這是一個人和AI共創(chuàng)的新時代！

　　中科聞歌研發(fā)推出了國產(chǎn)自主可控的雅意大語言模型1.0、2.0、3.0；YOYA讓AI生成有價值視頻；應(yīng)用在視頻創(chuàng)作全鏈路，比如說：無中生有，30s一鍵生成視頻；有中生優(yōu)，媒資庫素材一鍵成片；

　　很多媒體領(lǐng)導(dǎo)跟我們交流時，都談到一個痛點剛需，媒體多年積累了很多高質(zhì)量的圖文視聽語料，要花大量的人力財力進行標注治理，才能方便后面的同事，找得到某一段要用的視頻或鏡頭。而且數(shù)據(jù)不能出域，每年上萬小時的圖文視聽語料需要加工，耗時耗錢，才能成為數(shù)據(jù)資產(chǎn)，可以交易。記者們有了創(chuàng)意，查閱內(nèi)部各種資料時，也存在這樣的剛需痛點。優(yōu)雅（YoYa）的多模態(tài)內(nèi)容理解與編目技術(shù)能力，可以幫到大家。我們看這個視頻，優(yōu)雅可以從主題、景別、運鏡、場景、節(jié)奏來把這個視頻讀懂，進行自動化的標注編目，節(jié)約大量成本，形成自己多模態(tài)的語料素材庫，即方便查找，方便二次創(chuàng)作；又能轉(zhuǎn)售給其他需要的單位，通過數(shù)據(jù)交易獲得新收入。

　　雅意Agent的技術(shù)能力，實現(xiàn)人機混合的群體智能；中科聞歌的聯(lián)合創(chuàng)始人曾大軍所長，90年代在美國卡耐基梅倫大學(xué)讀博士專門學(xué)習(xí)人工智能時，他的導(dǎo)師是agent 主要推動者之一。2017年創(chuàng)立中科聞歌的時候他還不是自動化研究所副所長，現(xiàn)在兼任中科院基礎(chǔ)能力局副局長。中科聞歌在智能體方面的技術(shù)積累是非常豐厚。怎么玩？比如說：您要編一本書，可以根據(jù)創(chuàng)意生成大綱，有不同章節(jié)，然后扔給不同的智能體，去生成不同章節(jié)的內(nèi)容，反復(fù)干，直到滿意。

　　所以我們提出“人工+智能”共創(chuàng)內(nèi)容產(chǎn)業(yè)新范式，適用于出版?zhèn)髅健㈦姀V傳媒、影視傳媒等內(nèi)容產(chǎn)業(yè)，由1數(shù)據(jù)基座+2大模型系列+3平臺+N智能體應(yīng)用。

　　先盤清楚我們的語料數(shù)據(jù)庫，到底有哪些形態(tài)的語料數(shù)據(jù)？分布在哪里？然后通過語料加工平臺，多模態(tài)信息經(jīng)過抽取、清洗、語料化加工、審核，進入到管理平臺，進行多模態(tài)內(nèi)容編目、特征抽取、語義檢索。這就方便我們找到想要的素材，以文搜圖、圖搜圖、圖搜視頻都可以。在此基礎(chǔ)上，就可以進行內(nèi)容生產(chǎn)和知識服務(wù)；面向不同領(lǐng)域的場景需求，應(yīng)用多智能體編排支撐內(nèi)容生產(chǎn)。

　　泛媒體內(nèi)容智能生產(chǎn)與傳播系統(tǒng)的框架圖，AI全面賦能內(nèi)容生產(chǎn)的策采審編發(fā)，管饋評聯(lián)的全流程。光說不練是假把式，看看我們的YoYA系統(tǒng)?；诙嗄B(tài)媒資庫一鍵成片。輸入一句話，自動完成全流程，快速生成高質(zhì)量的視頻，可以修改編輯素材，修改背景音樂，媒資庫可以基于電視臺或者出版社的私域圖文視聽語料庫。雅意大模型有很多功能，不管是從選題編寫，還是擴寫視頻創(chuàng)作，都可以干，時間關(guān)系我們就不展開。

　　我們認為生成式人工智能將重塑內(nèi)容生產(chǎn)全流程，“人工+智能”將共創(chuàng)內(nèi)容產(chǎn)業(yè)新范式。

責(zé)任編輯: 楊涵

北京中科聞歌科技股份有限公司副總裁文皓：“人工+智能”共創(chuàng)內(nèi)容生產(chǎn)新范式

相關(guān)稿件