首頁 > 正文

商湯科技數(shù)字文娛事業(yè)部副總裁李星冶:如影隨形 實現(xiàn)數(shù)字人自由

2024-10-17 21:22 | 來源: 中國記協(xié)網(wǎng)
【字號: 打印  
Video PlayerClose

  今年是商湯成立第十年,經(jīng)歷了從創(chuàng)業(yè)1.0時代到2.0時代,在1.0時代大家對我們的了解更多是基于感知和認知,在2015、2016年的時候大家認為商湯是做人臉識別的公司,過兩天之后又認為商湯是做自動駕駛的公司,隨著人工智能技術的發(fā)展,尤其是AIGC和大模型的興起,我們進入了2.0時代,專注于生成式人工智能產(chǎn)品和內(nèi)容的創(chuàng)新,跨越10年所做的事情有什么不同。

  最簡單的功能去做檢測的識別,傳統(tǒng)的識別方式是監(jiān)督學習,給計算性確定性的答案,比如說限速牌,開過車都知道限速30,給確定的識別結(jié)果,跟結(jié)果做對應就像傳統(tǒng)的ARP語料庫一樣。大模型思考邏輯這里有30公里小孩的標志。為什么大模型有幻想,他猜的可能是對的,可能是不對的,如果這個場景不熟悉就可能出現(xiàn)幻想問題。2023年成為人工智能企業(yè)跨越的節(jié)點,標志著AI產(chǎn)業(yè)規(guī)模的顯著增長。

  1.0時代大家更熟悉我們,做一些感知的識別。2.0就是生成式人工智能做的產(chǎn)品和內(nèi)容,本身從大家更破圈地理解生成式人工智能,理解所謂的大模型是從2022年10月份,行業(yè)內(nèi)關注商湯、華為等大廠,大家更早是2017年有學術成果就開始關注了。GPT4把模型參數(shù)卷到萬億的參數(shù),包括GPT5也是千呼萬喚難出來,大家不在于把模型做得更大,而是把模型做得更小。我們的重點產(chǎn)品“如影”數(shù)字人,是與媒體集團合作的成果,包括與湖南廣電、36氪等的合作。在內(nèi)蒙古參加央視頻會議時,大量的微短劇,有人物的關鍵點,有一些劇作的梗要怎么出分劇本,這中間需要大量的文字上的創(chuàng)作的內(nèi)容,甚至創(chuàng)作內(nèi)容可視化,我們探討了如何利用數(shù)字人技術創(chuàng)作微短劇,包括劇本創(chuàng)作和內(nèi)容可視化。 “秒畫”就是文生圖、圖生圖,24張圖連在一起就慢慢變成一楨視頻或者是電影里面一格,圖生圖衍生的場景就是圖生視頻。實現(xiàn)數(shù)字人的孿生、物品的孿生、空間的孿生,有三個比較中國風的名字“如影”“瓊宇”“格物”。在過去一年中,我們致力于開發(fā)更高效的模型應用,推出了基于流式的、端上的模型,確保數(shù)據(jù)安全和低成本推理。大廠都在做的一件事情,怎么樣有更好的模型的應用,所以做了基于流式的、基于端上的,這個模型只有幾B,比如說隨便拍一個樓,這就是基于端上實時做流式的交互,意義所在我可以完全離線確保數(shù)據(jù)安全,第二推理成本極低幾乎可以忽略不計,我們都知道現(xiàn)在很多廠商,無論是做應用還是做算法的,都在給做云服務的打工,因為大量的推理、計算、調(diào)用的成本,完全基于端上,或者是5G的下一個時代一只腳邁入時代的門檻當中,基于流式做這件事情意義會比較大,如果有人第一次來到長沙,美食、杜甫江閣是什么。爬岳麓山、愛晚亭中間的故事是什么,這些模型已廣泛應用于文旅場景,以及智慧城市等更廣泛的應用場景,比較容易破圈,所以空間更多一些。

  今年5月日日新5.0迭代發(fā)布會上做了展示,右邊綠色小人基于GPT4做的,左邊是商湯自己的算法用了Lite版,評估的方法很簡單,哪個小人把對方打倒了暴力的評估方法,最后的結(jié)果我們把GPT4打贏了,仔細看沒有創(chuàng)新招式,唯一一點紅色小人出拳更快,天下武功唯快不怕,我們有更快的運算速度,把模型的推理和運算放在更前的地方,性價比更高、運算效率更優(yōu)。主流嵌入很多的芯片,手機、車機、車載、AI設備等都有大量的應用。AI Agent,這是所謂人工智能L3或者是L4應用的場景,這比如說收到一個郵件有辦公的場景,給微信里一些人去邀請,比如說給張總邀請吃飯,要給張總發(fā)消息確認,約餐廳,甚至約一個人接張總,所以中間有大量的跨平臺的智能助理的工作,和海量的APP談相關的工作,背后也有國家的支持,所以一定程度上代替人做智能交互的場景。

  媒體老師比我們做得更好,這個很有趣雖然也是圖生圖,做了大量的人臉融合的工作,我的臉怎么樣跟鄭欽文的臉合在一起,怎么和潘展樂一樣在泳池里面游泳,所以有人臉融合的做的比較好玩,也可以用在數(shù)字人等場景里面。我們進行了人臉融合技術的研究,與央視合作,為王冰冰等知名人士創(chuàng)建數(shù)字人。在技術壁壘方面,我們成功創(chuàng)建了錢學森的數(shù)字人,錢老離開很久了,很多影像資料是不可獲取的,我們最后做錢老數(shù)字人是按照雕像去做的,甚至找不到完整的視頻,這個技術壁壘是挺高的。特別是人民網(wǎng)、新華社、中央廣播電視總臺,對于審核有更高的要求,我們與工信部合作,開發(fā)了可信數(shù)字人,每個數(shù)字人都擁有可信認證,類似于數(shù)字身份證。制作非???,一分鐘或者是幾十秒的視頻生成數(shù)字人,通過提示詞去修改數(shù)字人,假如某位女士本身就很漂亮,但是如果希望在今天的場合出現(xiàn),就要很正式,可以微調(diào)她的發(fā)型、服飾,也可以調(diào)整體的風格。還有物體的數(shù)字孿生,比如說博物館,我們也做了大量的文博的場景,周大福和得物等做了選品的合作,還有更大空間的數(shù)字孿生,比如說智慧城市所謂AI1.0時代,這是典型應用的場景。在今年世界智能大會被官方評為鎮(zhèn)館之寶的產(chǎn)品Vimi相機,就是通過人可以驅(qū)動生成另外一個人,比如說用蒙娜麗莎的照片,通過我去驅(qū)動蒙娜麗莎的照片去做任何一件事情,所以是可控的數(shù)字人,背后可以用AIGC生成短片,因為我們都知道無論是文生圖還是圖生視頻就像開盲盒一樣,這事很有難度,怎么樣可控是有難度的,所以2024人工智能大會被評為鎮(zhèn)館之寶。當前我們和新浪微博做合作,微博錢包里面可以看到應用,可以做表情包,讓一些明星來做。

責任編輯: 楊涵
010090110010000000000000011124041310786769