當(dāng)直播時長逼近6個小時、大多數(shù)電商主播顯露疲態(tài)時,百度直播間里的主播“羅永浩”和搭檔“朱蕭木”仍然可以情緒飽滿地回答觀眾提問,時不時還能講兩句“段子”,吸引觀眾下單。這兩位主播并非真人,而是百度借助劇本驅(qū)動多模協(xié)同數(shù)字人技術(shù)打造的數(shù)字人主播。
在2025年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會上,由百度自主研發(fā)的劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù)獲得世界互聯(lián)網(wǎng)大會領(lǐng)先科技獎。
隨著人工智能技術(shù)快速發(fā)展,大模型向多模態(tài)加速演進(jìn),數(shù)字人成為融合大語言模型與多模態(tài)技術(shù)的創(chuàng)新應(yīng)用,電商直播是數(shù)字人落地的極佳場景。數(shù)字人技術(shù)使商家無需投入大量人力、物力進(jìn)行現(xiàn)場直播,能顯著降低場地租賃、設(shè)備采購、人員培訓(xùn)等費用。同時,數(shù)字人可以24小時不間斷直播,進(jìn)一步增加商品曝光時間和銷售機會,提升經(jīng)濟(jì)效益。
但傳統(tǒng)數(shù)字人生成技術(shù)常面臨語音、語言、視覺多模態(tài)割裂的問題,表現(xiàn)為臺詞生硬、語音語調(diào)與臺詞情感匹配不佳、表情手勢單一等。百度首席技術(shù)官王海峰說,針對數(shù)字人應(yīng)用痛點,百度創(chuàng)新研發(fā)了劇本驅(qū)動多模協(xié)同的高擬真數(shù)字人技術(shù)。
劇本的基礎(chǔ)是臺詞。臺詞生成不僅是內(nèi)容輸出,還要貼合主播人設(shè)與語言風(fēng)格,確保語言表達(dá)的個性化與一致性;在多主播場景中,還需實現(xiàn)語義邏輯、語調(diào)節(jié)奏和情感風(fēng)格的整體協(xié)調(diào)。同時,為提升臺詞的內(nèi)容深度,還要引入內(nèi)容規(guī)劃、知識增強與事實校驗機制,以降低人工智能幻覺風(fēng)險?;谂_詞,大模型可以直接生成一份數(shù)字人直播劇本。劇本自帶“視覺標(biāo)簽”和“語音標(biāo)簽”,它能夠告訴系統(tǒng),對應(yīng)臺詞人物要做出哪些動作。
互動性強是電商直播場景的一大特點。在與觀眾互動過程中,語音合成的自然度是決定用戶沉浸感的關(guān)鍵因素。觀眾希望聽到主播有情緒、有起伏的聲音,而不是生硬機械的朗讀。王海峰介紹,針對這一需求,百度提出了“文本自控的語音合成”方案。文本自控的語音合成大模型不僅具備高復(fù)原的語音合成能力,還能夠結(jié)合直播臺詞及主播個人特征,把這些文本內(nèi)容轉(zhuǎn)化為自然、有感染力的聲音,讓數(shù)字人不僅能發(fā)出聲音,更能精準(zhǔn)傳遞出調(diào)侃、得意、強調(diào)等細(xì)微情緒。
除了要和用戶交互,數(shù)字人主播在直播時還要與商品和所在空間進(jìn)行符合物理邏輯的互動。如何做到這一點?高一致性超擬真數(shù)字人長視頻生成技術(shù),能對輸入的歷史視頻數(shù)據(jù)、劇本腳本、語音信息以及骨骼驅(qū)動等多模態(tài)信號進(jìn)行分析與理解,并基于此分別生成高表現(xiàn)力片段、復(fù)雜“人—物—場”交互片段以及大動作大表情片段。系統(tǒng)能夠?qū)@些片段在較長時間跨度上進(jìn)行統(tǒng)一調(diào)度,確保語音、口型、表情與動作始終保持高度一致且同步。
如今,數(shù)字人正逐漸從實驗室走向各類應(yīng)用場景,商業(yè)化進(jìn)程顯著加快??梢灶A(yù)見,隨著深度思考、多模態(tài)交互等關(guān)鍵能力的躍升,還將有越來越多數(shù)字人出現(xiàn)在屏幕上,走進(jìn)人們的生活中。同時,業(yè)內(nèi)專家提醒,《直播電商監(jiān)督管理辦法(征求意見稿)》提出,使用人工智能等技術(shù)生成的人物圖像、視頻從事直播營銷活動的,直播間運營者應(yīng)當(dāng)在直播頁面進(jìn)行顯著標(biāo)識,持續(xù)向消費者提示該人物圖像、視頻屬于人工智能等技術(shù)生成,以與自然人名義或者形象進(jìn)行明顯區(qū)分。
中國科學(xué)院信息工程研究所正高級工程師韓冀中說,人們在擁抱數(shù)字人技術(shù)的同時,也需設(shè)立清晰的邊界,必須防止利用高擬真技術(shù)以假亂真進(jìn)行欺詐或虛假宣傳。技術(shù)的發(fā)展必須與法律、倫理的約束并行,確保創(chuàng)新在正確的軌道上行穩(wěn)致遠(yuǎn)。(科技日報記者 都 芃)
(責(zé)任編輯:蔡文斌)