推動(dòng)生成式AI更好應(yīng)用于聲音類文藝創(chuàng)作
2024/09/05 10:42 來源:經(jīng)濟(jì)參考報(bào) 閱讀:1.1萬
聲音類產(chǎn)品作為文藝創(chuàng)作的重要表現(xiàn)形式,,與生成式AI(人工智能)的結(jié)合為文藝創(chuàng)作帶來了全新的可能性,。通過生成式AI技術(shù),聲音類產(chǎn)品在音樂創(chuàng)作、語音合成有聲讀物,、虛擬主播,、影像音效制作等方面不斷變革創(chuàng)新,,為文藝創(chuàng)作提供了全新的創(chuàng)作手段和表達(dá)方式。生成式AI技術(shù)在文藝創(chuàng)作中的應(yīng)用為聲音類產(chǎn)品發(fā)展提供了新的機(jī)遇,,但面臨的風(fēng)險(xiǎn)與挑戰(zhàn)也需積極應(yīng)對(duì)和解決。
生成式AI產(chǎn)品應(yīng)用領(lǐng)域廣泛
AI音樂創(chuàng)作“風(fēng)生水起”,。生成式AI技術(shù)已經(jīng)在音樂領(lǐng)域得到廣泛應(yīng)用,,主要體現(xiàn)在分類識(shí)別(音樂檢索、樂譜識(shí)別,、音頻識(shí)別),、生成(AI作曲、虛擬歌手)及傳播(MIDI音響,、教育)這三個(gè)方面,。AI在音樂創(chuàng)作的不同階段都發(fā)揮了較大作用。在創(chuàng)作初期,,創(chuàng)作者運(yùn)用AIGC汲取音樂素材以及創(chuàng)作靈感,,同時(shí)對(duì)作品的音樂風(fēng)格進(jìn)行分析和預(yù)測(cè),并進(jìn)行音樂素材的智能檢索和組織,。在創(chuàng)作中期,,AIGC技術(shù)為創(chuàng)作者的作品產(chǎn)出提供支撐,,更好地輔助音樂創(chuàng)作,,將音樂作品意圖具像化。在創(chuàng)作后期,,AIGC為雛形作品的后期制作提供強(qiáng)大的音頻處理工具,,從而使作品的后期制作更加準(zhǔn)確、高效,。尤其是某些AI編曲技術(shù)的出現(xiàn),,為音樂創(chuàng)作者帶來更多靈感的同時(shí),也使創(chuàng)作過程更加高效,。
AI虛擬主播走近大眾,。虛擬主播通過運(yùn)用AI語音合成技術(shù)、自然語言處理技術(shù),、深度學(xué)習(xí)技術(shù)以及計(jì)算機(jī)視覺技術(shù)走進(jìn)大眾視野,。語音合成技術(shù)通過先進(jìn)的語音合成算法,模仿人類的聲音,,從而使虛擬主播能夠流暢,、自然地表達(dá)交流。計(jì)算機(jī)視覺技術(shù)在虛擬主播的形象呈現(xiàn)方面發(fā)揮著關(guān)鍵作用,。通過3D建模和渲染技術(shù),,可以創(chuàng)建出高度逼真的虛擬人物。同時(shí),,通過面部捕捉和動(dòng)作捕捉技術(shù)使虛擬主播能夠?qū)崟r(shí)模擬真人的表情和動(dòng)作,。情感計(jì)算技術(shù)可以分析觀眾的語言和行為,,判斷觀眾的情感狀態(tài),據(jù)此及時(shí)調(diào)整虛擬主播的回應(yīng)方式及語氣,,進(jìn)而賦予了虛擬主播在交互狀態(tài)下的情感變化,。
AI配音應(yīng)用廣泛。AI配音技術(shù)通過對(duì)大量語音數(shù)據(jù)進(jìn)行學(xué)習(xí),,能夠模擬出不同人物,、不同情緒的語音特點(diǎn),為AI配音產(chǎn)品提供豐富的角色表現(xiàn)和情感表達(dá),。隨著AI技術(shù)的發(fā)展,,神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等技術(shù)出現(xiàn),,“TTS+AI”(從文本到語音+人工智能)的組合使得電子合成語音自然性和準(zhǔn)確性不斷提高,。針對(duì)情感起伏、聲線多元,、人聲適配度等多樣化需求,,目前已有AI語音產(chǎn)品供應(yīng)商提供“情感TTS”定制服務(wù),通過調(diào)整語音語調(diào),、語速,、停連、音高甚至模擬人類在不同心情下的語氣變化,,使電子合成語音能夠更貼切地適應(yīng)不同的語境和場(chǎng)景,,賦予其更為豐富的“情感”表達(dá)。AI配音技術(shù)應(yīng)用場(chǎng)景較為廣泛,,對(duì)眾多行業(yè)發(fā)展都有促進(jìn)意義,。在電影、電視劇,、動(dòng)畫等影視作品中,,AI配音技術(shù)被用于生成角色的語音。通過模擬不同音色和語言,,AI配音技術(shù)可以使角色聲音更加自然,、真實(shí),提高觀眾的觀看體驗(yàn),。該技術(shù)在有聲讀物和電子書領(lǐng)域也應(yīng)用甚廣,,為用戶提供更加自然、流暢的語音播報(bào)服務(wù),。AI配音也被應(yīng)用在游戲領(lǐng)域,,可以生成自然且更符合角色設(shè)定的聲音,增強(qiáng)了游戲消費(fèi)者的體驗(yàn),。
生成式AI產(chǎn)品優(yōu)勢(shì)明顯
創(chuàng)作成本相對(duì)較低,。隨著人工智能技術(shù)的發(fā)展,,AI技術(shù)開始嘗試應(yīng)用于智能聲音設(shè)計(jì),即自動(dòng)根據(jù)影視內(nèi)容及情感要求生成相應(yīng)音效,,這一應(yīng)用大大降低了制作成本,。一方面,節(jié)省了聲音類產(chǎn)品制作的時(shí)間和人力資源,。相較于傳統(tǒng)產(chǎn)品,,AI技術(shù)的應(yīng)用可以快速生成出所需聲音,并實(shí)現(xiàn)自動(dòng)化操作,,減少了創(chuàng)作過程所需的人力和時(shí)間,。另一方面,傳統(tǒng)聲音類產(chǎn)品制作容易受到多種因素影響,,例如創(chuàng)作者的狀態(tài),、環(huán)境噪音、設(shè)備操作等,,導(dǎo)致創(chuàng)作周期較長(zhǎng),,而生成式AI技術(shù)應(yīng)用到聲音類產(chǎn)品創(chuàng)作中可以最大限度降低外界因素影響,實(shí)現(xiàn)成本最優(yōu)化,。
素材處理精準(zhǔn)高效,。AI技術(shù)通過大量的數(shù)據(jù)學(xué)習(xí),可以對(duì)音頻素材進(jìn)行識(shí)別,、分類,、整理,,自動(dòng)識(shí)別音頻中如人聲,、音樂、音效等不同元素,,并進(jìn)行快速分類和整理,,與人工相比大大提高了素材處理的質(zhì)量,降低了數(shù)據(jù)處理的錯(cuò)誤率,。AI技術(shù)還可以對(duì)音頻素材進(jìn)行智能剪輯和拼接,。此外,在音頻處理過程中需要經(jīng)過降噪,、增減混響等特殊處理,,人工處理可能存在個(gè)體偏差,而AI技術(shù)能最大限度降低錯(cuò)誤出現(xiàn)的概率,。
生成內(nèi)容多元新穎,。隨著社會(huì)發(fā)展,人們對(duì)聲音類產(chǎn)品的需求更加多元化,、個(gè)性化,。針對(duì)此現(xiàn)狀,,生成式AI可以幫助創(chuàng)作者在廣告配音、音樂制作,、虛擬角色聲音等多領(lǐng)域的創(chuàng)作中打破固有思維限制,,提供新穎的創(chuàng)作思路。不僅如此,,AI能夠通過分析用戶的喜好,、習(xí)慣和交互數(shù)據(jù),了解用戶對(duì)聲音產(chǎn)品如音色,、語氣,、語調(diào)等方面的具體需求,為創(chuàng)作者個(gè)性化創(chuàng)作提供實(shí)際支撐,。
生成式AI產(chǎn)品發(fā)展存在的風(fēng)險(xiǎn)與挑戰(zhàn)
權(quán)益問題存在爭(zhēng)議,。聲音類產(chǎn)品涉及數(shù)據(jù)侵權(quán)風(fēng)險(xiǎn)、版權(quán)主體的權(quán)益以及個(gè)人隱私和人格權(quán)等問題,。AIGC創(chuàng)作模型大多是由龐大的樣本訓(xùn)練而成的,,對(duì)模型選取的素材進(jìn)行反向溯源難以實(shí)現(xiàn),而采用的素材可能未經(jīng)作者授權(quán),。不僅如此,,生成式AI的使用者可以在生成的產(chǎn)品上進(jìn)行二度創(chuàng)作,新產(chǎn)品版權(quán)的歸屬問題也難以確認(rèn),。AI在生成部分聲音類產(chǎn)品時(shí),,如使用到未經(jīng)公開發(fā)布的普通人的聲音,這類聲音屬于個(gè)人隱私信息,,在公開發(fā)布時(shí)可能存在暴露隱私的風(fēng)險(xiǎn),,這將對(duì)個(gè)人隱私權(quán)和人格權(quán)造成侵犯。在當(dāng)前發(fā)展階段,,AIGC從組合型內(nèi)容創(chuàng)造轉(zhuǎn)向探索型甚至變革型內(nèi)容創(chuàng)造,,其創(chuàng)作過程中的權(quán)益收益以及可能導(dǎo)致的侵權(quán)責(zé)任如何劃分,目前也處于爭(zhēng)論之中,。
藝術(shù)規(guī)范問題存在爭(zhēng)議,。聲音類AI產(chǎn)品涉及音樂、播音主持等藝術(shù)類學(xué)科,,這些學(xué)科在其專業(yè)領(lǐng)域也有一定的專業(yè)規(guī)范和藝術(shù)化處理方式,,而聲音類AI產(chǎn)品在是否符合專業(yè)的藝術(shù)規(guī)范方面存在爭(zhēng)議。以播音主持專業(yè)為例,,在不同語境下朗讀時(shí),,同一句話所表達(dá)的語氣、情感、停連,、重音都是不同的,,說話時(shí)停連、重音的位置變化也會(huì)影響意思表達(dá),。但目前,,生成式AI在配音時(shí)不能根據(jù)文本內(nèi)容識(shí)別具體的語境,同一聲音在不同語境下朗讀方式區(qū)別不大,。在情感處理方面,,AI與真人相比表達(dá)較為生硬,沒有情感起伏,。因此,,在實(shí)際應(yīng)用中,聲音類AIGC產(chǎn)品在藝術(shù)規(guī)范方面的問題也值得深思,。
生成式AI產(chǎn)品對(duì)創(chuàng)作者的啟示
創(chuàng)作者應(yīng)不斷提升自身能力,。生成式AI技術(shù)可以實(shí)現(xiàn)一鍵生成,一些簡(jiǎn)單重復(fù)的工作不再需要人工完成,,這就使一些創(chuàng)作者面臨失業(yè)風(fēng)險(xiǎn),。當(dāng)然,聲音類AI產(chǎn)品存在的固有問題也使優(yōu)秀創(chuàng)作者的地位不可撼動(dòng),。例如,,AI虛擬主播能夠通過“克隆”方式模仿規(guī)范的普通話和特定音色,但究其根本也只能模仿聲音的外在形式,。實(shí)際上,,優(yōu)秀的主播需要在不同情境下采用不同的播報(bào)方式,通過語氣,、語調(diào),、停連等的變化來表達(dá)不同的情感狀態(tài)。這就要求創(chuàng)作者們不斷提高自身技術(shù)水平,,提高專業(yè)能力,,綜合學(xué)習(xí)多領(lǐng)域知識(shí),豐富自己的閱歷,,擴(kuò)大自己的優(yōu)勢(shì),從容面對(duì)AI產(chǎn)品發(fā)展對(duì)創(chuàng)作者產(chǎn)生的沖擊,。
創(chuàng)作者應(yīng)合理利用AI技術(shù),。AIGC技術(shù)發(fā)展到現(xiàn)階段,其在為創(chuàng)作者提供創(chuàng)作靈感,、降低創(chuàng)作成本,、提高作品產(chǎn)出效率、提升作品質(zhì)量等方面具有一定的優(yōu)勢(shì)。因此,,創(chuàng)作者要主動(dòng)了解和學(xué)習(xí)AIGC技術(shù),,不能一味地肯定或者抵制,而是要將自身需要與AI技術(shù)相結(jié)合,,掌握在AI技術(shù)運(yùn)用當(dāng)中的主動(dòng)權(quán),,使其成為輔助作品創(chuàng)作的得力助手,實(shí)現(xiàn)自身與AI技術(shù)雙向融合發(fā)展,。同時(shí),,因AIGC的使用規(guī)范問題還存在爭(zhēng)議,創(chuàng)作者要提高自身法律意識(shí),,及時(shí)了解AIGC相關(guān)法律法規(guī),,使AI技術(shù)能夠在合理規(guī)范的情況下輔助自身創(chuàng)作,提高作品質(zhì)量,,產(chǎn)出更優(yōu)秀的聲音類產(chǎn)品,。
隨著AIGC技術(shù)的發(fā)展,其在聲音類產(chǎn)品方面的應(yīng)用已經(jīng)占據(jù)了一定的位置,。其不僅能模擬出接近人類的聲音,,直接生成聲音產(chǎn)品,而且可以輔助創(chuàng)作者進(jìn)行創(chuàng)作,,為創(chuàng)作者提供全新的工具和獨(dú)特的表達(dá)方式,。但同時(shí),生成式AI技術(shù)在聲音類文藝創(chuàng)作應(yīng)用中仍面臨諸多挑戰(zhàn),,我們要在抓住機(jī)遇的同時(shí)正視存在的問題,,并在實(shí)踐中努力加以改進(jìn),讓生成式AI技術(shù)得到更好更廣泛的應(yīng)用,。(王一然 蘇州大學(xué)傳媒學(xué)院)