1950年,艾倫圖靈(Alan Turing)在其論文《計(jì)算機(jī)器與智能(Computing Machinery and Intelligence)》中提出了著名的“圖靈測試”,給出了判定機(jī)器是否具有“智能”的試驗(yàn)方法,即機(jī)器是否能夠模仿人類的思維方式來“生成”內(nèi)容繼而與人交互。某種程度上來說,人2
欲了解更多AIGC行業(yè)的未來發(fā)展前景,可以點(diǎn)擊查看中研普華產(chǎn)業(yè)院研究報(bào)告《2022-2027年中國AI智能學(xué)習(xí)機(jī)行業(yè)市場全景調(diào)研及投資價(jià)值評估研究報(bào)告》
一、人工智能生成內(nèi)容的發(fā)展歷程與概念
1950年,艾倫圖靈(Alan Turing)在其論文《計(jì)算機(jī)器與智能(Computing Machinery and Intelligence)》中提出了著名的“圖靈測試”,給出了判定機(jī)器是否具有“智能”的試驗(yàn)方法,即機(jī)器是否能夠模仿人類的思維方式來“生成”內(nèi)容繼而與人交互。某種程度上來說,人工智能從那時(shí)起就被寄予了用于內(nèi)容創(chuàng)造的期許。經(jīng)過半個(gè)多世紀(jì)的發(fā)展,隨著數(shù)據(jù)快速積累、算力性能提升和算法效力增強(qiáng),今天的人工智能不僅能夠與人類進(jìn)行互動(dòng),還可以進(jìn)行寫作、編曲、繪畫、視頻制作等創(chuàng)意工作。2018年,人工智能生成的畫作在佳士得拍賣行以43.25萬美元成交,成為世界上首個(gè)出售的人工智能藝術(shù)品,引發(fā)各界關(guān)注。隨著人工智能越來越多地被應(yīng)用于內(nèi)容創(chuàng)作,人工智能生成內(nèi)容(Artificial Intelligence Generated Content,簡稱AIGC)的概念悄然興起。
(一)AIGC歷史沿革結(jié)合人工智能的演進(jìn)歷程,AIGC的發(fā)展大致可以分為三個(gè)階段,即:早期萌芽階段(20世紀(jì)50年代至90年代中期)、沉淀積累階段(20世紀(jì)90年代中期至21世紀(jì)10年代中期),以及快速發(fā)展階段(21世紀(jì)10年代中期至今)。
早期萌芽階段(1950s-1990s),受限于當(dāng)時(shí)的科技水平,AIGC僅限于小范圍實(shí)驗(yàn)。1957年,萊杰倫希勒(Lejaren Hiller)和倫納德艾薩克森(LeonardIsaacson)通過將計(jì)算機(jī)程序中的控制變量換成音符完成了歷史上第一支由計(jì)算機(jī)創(chuàng)作的音樂作品——弦樂四重奏《依利亞克組曲(Illiac Suite)》。1966年,約瑟夫魏岑鮑姆(JosephWeizenbaum)和肯尼斯科爾比(Kenneth Colby)共同開發(fā)了世界第一款可人機(jī)對話的機(jī)器人“伊莉莎(Eliza)”,其通過關(guān)鍵字掃描和重組完成交互任務(wù)。80年代中期,IBM基于隱形馬爾科夫鏈模型(Hidden Markov Model,HMM)創(chuàng)造了語音控制打字機(jī)“坦戈拉(Tangora)”,能夠處理約20000個(gè)單詞。80年代末至90年代中,由于高昂的系統(tǒng)成本無法帶來可觀的商業(yè)變現(xiàn),各國政府紛紛減少了在人工智能領(lǐng)域的投入,AIGC沒有取得重大突破。
沉淀積累階段(1990s-2010s),AIGC從實(shí)驗(yàn)性向?qū)嵱眯灾饾u轉(zhuǎn)變。2006年,深度學(xué)習(xí)算法取得重大突破,同時(shí)期圖形處理器(Graphics Processing Unit,GPU)、張量處理器(Tensor Processing Unit,TPU)等算力設(shè)備性能不斷提升,互聯(lián)網(wǎng)使數(shù)據(jù)規(guī)模快速膨脹并為各類人工智能算法提供了海量訓(xùn)練數(shù)據(jù),使人工智能發(fā)展取得了顯著的進(jìn)步。但是AIGC依然受限于算法瓶頸,無法較好地完成創(chuàng)作任務(wù),應(yīng)用仍然有限,效果有待提升。2007年,紐約大學(xué)人工智能研究員羅斯·古德溫裝配的人工智能系統(tǒng)通過對公路旅行中的一切所見所聞進(jìn)行記錄和感知,撰寫出小說《1 The Road》。作為世界第一部完全由人工智能創(chuàng)作的小說,其象征意義遠(yuǎn)大于實(shí)際意義,整體可讀性不強(qiáng),拼寫錯(cuò)誤、辭藻空洞、缺乏邏輯等缺點(diǎn)明顯。2012年,微軟公開展示了一個(gè)全自動(dòng)同聲傳譯系統(tǒng),基于深層神經(jīng)網(wǎng)絡(luò)(Deep NeuralNetwork,DNN)可以自動(dòng)將英文演講者的內(nèi)容通過語音識別、語言翻譯、語音合成等技術(shù)生成中文語音。
快速發(fā)展階段(2010s-至今),自2014年起,隨著以生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)為代表的深度學(xué)習(xí)算法的提出和迭代更新,AIGC迎來了新時(shí)代,生成內(nèi)容百花齊放,效果逐漸逼真直至人類難以分辨。2017年,微軟人工智能少女“小冰”推出了世界首部100%由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》。2018年,英偉達(dá)發(fā)布的StyleGAN模型可以自動(dòng)生成圖片,目前已升級到第四代模型StyleGAN-XL,其生成的高分辨率圖片人眼難以分辨真假。2019年,DeepMind發(fā)布了DVD-GAN模型用以生成連續(xù)視頻,在草地、廣場等明確場景下表現(xiàn)突出。2021年,OpenAI推出了DALL-E并于一年后推出了升級版本DALL-E-2,主要應(yīng)用于文本與圖像的交互生成內(nèi)容,用戶只需輸入簡短的描述性文字,DALL-E-2即可創(chuàng)作出相應(yīng)極高質(zhì)量的卡通、寫實(shí)、抽象等風(fēng)格的繪畫作品。
(二)AIGC的概念與內(nèi)涵
目前,對AIGC這一概念的界定,尚無統(tǒng)一規(guī)范的定義。國內(nèi)產(chǎn)學(xué)研各界對于AIGC的理解是“繼專業(yè)生成內(nèi)容(ProfessionalGenerated Content,PGC)和用戶生成內(nèi)容(User Generated Content,UGC)之后,利用人工智能技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式”。在國際上對應(yīng)的術(shù)語是“人工智能合成媒體(AI-generated Media 或Synthetic Media)”1,其定義是“通過人工智能算法對數(shù)據(jù)或媒體進(jìn)行生產(chǎn)、操控和修改的統(tǒng)稱”。綜上所述,我們認(rèn)為AIGC既是從內(nèi)容生產(chǎn)者視角進(jìn)行分類的一類內(nèi)容,又是一種內(nèi)容生產(chǎn)方式,還是用于內(nèi)容自動(dòng)化生成的一類技術(shù)集合。
為了幫助不同領(lǐng)域的受眾群體更好的理解AIGC,我們從發(fā)展背景、技術(shù)能力、應(yīng)用價(jià)值三個(gè)方面對其概念進(jìn)行深入剖析。
從發(fā)展背景方面來看,AIGC的興起源于深度學(xué)習(xí)技術(shù)的快速突破和日益增長的數(shù)字內(nèi)容供給需求。一方面,技術(shù)進(jìn)步驅(qū)動(dòng)AIGC可用性不斷增強(qiáng)。在人工智能發(fā)展初期,雖然對AIGC進(jìn)行了一些初步嘗試,但受限各種因素,相關(guān)算法多基于預(yù)先定義的規(guī)則或者模板,還遠(yuǎn)遠(yuǎn)算不上是智能創(chuàng)作內(nèi)容的程度。近年來,基于深度學(xué)習(xí)算法的AIGC技術(shù)快速迭代,徹底打破了原先模板化、公式化、小范圍的局限,可以快速、靈活地生成不同模態(tài)的數(shù)據(jù)內(nèi)容。另一方面,海量需求牽引AIGC應(yīng)用落地。隨著數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)融合程度不斷加深,以及Meta、微軟、字節(jié)跳動(dòng)等平臺型巨頭的數(shù)字化場景向元宇宙轉(zhuǎn)型,人類對數(shù)字內(nèi)容總量和豐富程度的整體需求不斷提高。數(shù)字內(nèi)容的生產(chǎn)取決于想象能力、制造能力和知識水平;傳統(tǒng)內(nèi)容生產(chǎn)手段受限于人力有限的制造能力,逐漸無法滿足消費(fèi)者對于數(shù)字內(nèi)容的消費(fèi)需求,供給側(cè)產(chǎn)能瓶頸日益凸顯。基于以上原因,AIGC在各行業(yè)中得到越來越廣泛的應(yīng)用,市場潛力逐漸顯現(xiàn)。
從技術(shù)能力方面來看,AIGC根據(jù)面向?qū)ο?、?shí)現(xiàn)功能的不同可分為三個(gè)層次。一是智能數(shù)字內(nèi)容孿生,其主要目標(biāo)是建立現(xiàn)實(shí)世界到數(shù)字世界的映射,將現(xiàn)實(shí)世界中的物理屬性(如物體的大小、紋理、顏色等)和社會屬性(如主體行為、主體關(guān)系等)高效、可感知地進(jìn)行數(shù)字化。二是智能數(shù)字內(nèi)容編輯,其主要目的是建立數(shù)字世界與現(xiàn)實(shí)世界的雙向交互。在數(shù)字內(nèi)容孿生的基礎(chǔ)上,從現(xiàn)實(shí)世界實(shí)現(xiàn)對虛擬數(shù)字世界中內(nèi)容的控制和修改,同時(shí)利用數(shù)字世界高效率仿真和低成本試錯(cuò)的優(yōu)勢,為現(xiàn)實(shí)世界的應(yīng)用提供快速迭代能力。三是智能數(shù)字內(nèi)容創(chuàng)作,其主要目標(biāo)是讓人工智能算法具備內(nèi)容創(chuàng)作和自我演化的能力,形成的AIGC產(chǎn)品具備類似甚至超越人的創(chuàng)作能力。以上三個(gè)層面的能力共同構(gòu)成AIGC的能力閉環(huán)。
從應(yīng)用價(jià)值方面來看,AIGC將有望成為數(shù)字內(nèi)容創(chuàng)新發(fā)展的新引擎,為數(shù)字經(jīng)濟(jì)發(fā)展注入全新動(dòng)能。一方面,AIGC能夠以優(yōu)于人類的制造能力和知識水平承擔(dān)信息挖掘、素材調(diào)用、復(fù)刻編輯等基礎(chǔ)性機(jī)械勞動(dòng),從技術(shù)層面實(shí)現(xiàn)以低邊際成本、高效率的方式滿足海量個(gè)性化需求;同時(shí)能夠創(chuàng)新內(nèi)容生產(chǎn)的流程和范式,為更具想象力的內(nèi)容、更加多樣化的傳播方式提供可能性,推動(dòng)內(nèi)容生產(chǎn)向更有創(chuàng)造力的方向發(fā)展。另一方面,AIGC能夠通過支持?jǐn)?shù)字內(nèi)容與其他產(chǎn)業(yè)的多維互動(dòng)、融合滲透從而孕育新業(yè)態(tài)新模式,打造經(jīng)濟(jì)發(fā)展新增長點(diǎn),為千行百業(yè)發(fā)展提供新動(dòng)能。此外,2021年以來,“元宇宙”呈現(xiàn)出超出想象的發(fā)展爆發(fā)力;作為數(shù)實(shí)融合的“終極”數(shù)字載體,元宇宙將具備持續(xù)性、實(shí)時(shí)性、可創(chuàng)造性等特征,也將通過AIGC加速復(fù)刻物理世界、進(jìn)行無限內(nèi)容創(chuàng)作,從而實(shí)現(xiàn)自發(fā)有機(jī)生長。
二、人工智能生成內(nèi)容的技術(shù)體系及其演進(jìn)方向
AIGC作為人工智能技術(shù)和產(chǎn)業(yè)應(yīng)用的要素之一,隨著技術(shù)能力的不斷迭代升級,正在降低內(nèi)容創(chuàng)作門檻、釋放創(chuàng)作能力,未來將推動(dòng)數(shù)實(shí)融合趨勢下內(nèi)容創(chuàng)作的范式轉(zhuǎn)變。探討其能力體系的構(gòu)成,即賦能內(nèi)容創(chuàng)作的技術(shù)路徑,對制定領(lǐng)域內(nèi)標(biāo)準(zhǔn)、建立行業(yè)生態(tài)、爭取更加廣泛的開發(fā)者和應(yīng)用場景具有十分重要的意義。
(一)AIGC技術(shù)升級步入深化階段人工智能算法的不斷迭代是AIGC發(fā)展進(jìn)步的源動(dòng)力,從技術(shù)演進(jìn)的角度出發(fā),可將AIGC技術(shù)可大致劃分為傳統(tǒng)基于模板或規(guī)則的前深度學(xué)習(xí)階段和深度神經(jīng)網(wǎng)絡(luò)快速發(fā)展的深度學(xué)習(xí)階段。早期的AIGC技術(shù)主要依據(jù)事先指定的模板或者規(guī)則,進(jìn)行簡單的內(nèi)容制作與輸出,與靈活且真實(shí)的內(nèi)容生成有較大的差距。該時(shí)期的人工智能算法并不具備強(qiáng)大的學(xué)習(xí)能力,而是大多依賴于預(yù)先定義的統(tǒng)計(jì)模型或?qū)<蚁到y(tǒng)執(zhí)行特定的任務(wù)。通過巧妙地規(guī)則設(shè)計(jì),早期AIGC技術(shù)可以完成簡單線條、文本和旋律的生成。例如,通過定義復(fù)雜的函數(shù)方程組,計(jì)算機(jī)所繪出的函數(shù)曲線具備某種美學(xué)圖樣;通過記錄大量的問答文本,在面對新的問題時(shí),計(jì)算機(jī)可以通過檢索和匹配的方式生成簡單的答案,甚至于改寫故事。但是由于缺乏對客觀世界的深入感知和對人類語言文字等知識的認(rèn)知能力,早期的AIGC技術(shù)普遍面臨所生成的內(nèi)容空洞、刻板、文不對題等問題。參考人類的內(nèi)容創(chuàng)作過程,研究人員們提出,理想的AIGC算法需要具備對數(shù)據(jù)內(nèi)容的學(xué)習(xí)能力,在理解數(shù)據(jù)的基礎(chǔ)上進(jìn)行知識與分布的學(xué)習(xí),最終實(shí)現(xiàn)高質(zhì)量的內(nèi)容創(chuàng)作。
深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)范式和網(wǎng)絡(luò)結(jié)構(gòu)上的不斷迭代極大的提升了人工智能算法的學(xué)習(xí)能力,從而推動(dòng)了AIGC技術(shù)的快速發(fā)展。不同于傳統(tǒng)人工智能算法,深度學(xué)習(xí)中的損失函數(shù)和梯度下降算法可以靈活快速的調(diào)整深度神經(jīng)網(wǎng)絡(luò)中的參數(shù),從而實(shí)現(xiàn)從數(shù)據(jù)中進(jìn)行學(xué)習(xí)功能。2012年,卷積神經(jīng)網(wǎng)絡(luò)AlexNet1憑借優(yōu)秀的學(xué)習(xí)能力,在當(dāng)年的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中一舉奪魁,比第二名傳統(tǒng)機(jī)器學(xué)習(xí)算法的錯(cuò)誤率提升10.8個(gè)百分點(diǎn),開啟了深度學(xué)習(xí)時(shí)代的序幕。就在緊隨其后的2013年,深度變分自編碼器的提出讓AIGC技術(shù)能力有了極大的進(jìn)步。對于給定的神經(jīng)網(wǎng)絡(luò),深度變分自編碼器要求網(wǎng)絡(luò)的輸出是對于輸入內(nèi)容的重建,通過重參數(shù)化等技巧,網(wǎng)絡(luò)在重建過程中學(xué)習(xí)訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分布。在測試階段,變分自編碼器通過在學(xué)習(xí)到的統(tǒng)計(jì)分布中進(jìn)行采樣,首次能比穩(wěn)定的生成從未觀測過的低分辨率圖像。2014年,一種新的博弈學(xué)習(xí)范式伴隨著生成對抗網(wǎng)絡(luò)[3]被提出。生成對抗網(wǎng)絡(luò)由一個(gè)生成器和一個(gè)判別器組成,判別器致力于不斷尋找生成數(shù)據(jù)和真實(shí)數(shù)據(jù)間的不同,生成器根據(jù)判別器的反饋不斷完善自身,以求生成真假難辨的內(nèi)容。得益于雙方博弈的學(xué)習(xí)策略,生成內(nèi)容的真實(shí)性和清晰度都得到了極大的提升,生成對抗網(wǎng)絡(luò)也被應(yīng)用于很多內(nèi)容生成的具體應(yīng)用。
除了變分自編碼器和生成對抗網(wǎng)絡(luò),強(qiáng)化學(xué)習(xí)[4、流模型5、擴(kuò)散模型回等學(xué)習(xí)范式均取得了喜人的進(jìn)展,這些模型范式在不同場景中各有優(yōu)勢,讓AIGC技術(shù)可以快速地應(yīng)用到不同的場景和任務(wù)中。深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)升級是推動(dòng)AIGC快速發(fā)展的另一主要因素。一方面,實(shí)驗(yàn)證明,深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和模型大小呈正相關(guān),伴隨著模型參數(shù)量的增加,相對應(yīng)深度神經(jīng)網(wǎng)絡(luò)的能力一般會取得大幅提升。但是,隨意地增加神經(jīng)網(wǎng)絡(luò)規(guī)模是行不通的,越大規(guī)模神經(jīng)網(wǎng)絡(luò)往往意味著更大的訓(xùn)練難度,因此深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)顯得尤為關(guān)鍵。從早期的玻爾茲曼機(jī),多層感知機(jī),卷積神經(jīng)網(wǎng)絡(luò),到深度殘差網(wǎng)絡(luò)和Transformer大模型,網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)化帶來了深度學(xué)習(xí)模型參數(shù)量從幾萬到數(shù)千億躍升,模型層數(shù)也從開始的個(gè)位數(shù)逐步發(fā)展到成百上千。
深度學(xué)習(xí)模型規(guī)模上的量變引起了AIGC技術(shù)能力的質(zhì)變,在新型網(wǎng)絡(luò)結(jié)構(gòu)的加持下,上述的生成對抗網(wǎng)絡(luò)等算法開始能生成超高清晰度的視頻,高質(zhì)量的文本段落和優(yōu)美靈動(dòng)的樂曲旋律。另一方面,研究者們在深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)中引入包含語義的隱式表達(dá)和物理知識,以降低模型的訓(xùn)練難度、增強(qiáng)生成內(nèi)容的豐富程度。例如,研究者發(fā)現(xiàn)通過在神經(jīng)網(wǎng)絡(luò)的每一層引入隱式表達(dá),能夠極大地提升內(nèi)容生成算法的可控性和生成效果。另外,在三維數(shù)據(jù)的生成任務(wù)中,神經(jīng)輻射場(8在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)時(shí)充分考慮了物理世界的固有約束,極大提升了三維渲染效率和效果。AIGC要真正發(fā)揮對不同行業(yè)的驅(qū)動(dòng)作用,需要與各行各業(yè)的特異性場景深度融合。在處理這些實(shí)際應(yīng)用中,深度學(xué)習(xí)算法在感知、認(rèn)知、模仿、生成等方向的基礎(chǔ)能力決定了AIGC技術(shù)所能創(chuàng)作的生產(chǎn)力。近些年中,這些算法技術(shù)齊頭并進(jìn)、百花齊放,并最終形成了AIGC應(yīng)用于不同場景的底層支撐。通過人工智能支撐技術(shù)的不斷升級,AIGC技術(shù)將持續(xù)賦能各類文化創(chuàng)意、生產(chǎn)生活、科學(xué)發(fā)現(xiàn)等各種場景。
關(guān)注公眾號
免費(fèi)獲取更多報(bào)告節(jié)選
免費(fèi)咨詢行業(yè)專家
2023-2028年國內(nèi)監(jiān)控?cái)z像機(jī)行業(yè)發(fā)展趨勢及發(fā)展策略研究報(bào)告
監(jiān)控?cái)z像機(jī)是用在安防方面的準(zhǔn)攝像機(jī),它的像素和分辨率比電腦的視頻頭要高,比專業(yè)的數(shù)碼相機(jī)或dv低。監(jiān)控?cái)z像機(jī)大多只是單一的視頻捕捉設(shè)備,很少具備數(shù)據(jù)保存功能。監(jiān)控?cái)z像機(jī)從外型上主要區(qū)...
查看詳情
產(chǎn)業(yè)規(guī)劃 特色小鎮(zhèn) 產(chǎn)業(yè)園區(qū)規(guī)劃 產(chǎn)業(yè)地產(chǎn) 可研報(bào)告 商業(yè)計(jì)劃書 細(xì)分市場研究 IPO上市咨詢
1、電力市場供給情況分析截至2022年底,全國全口徑發(fā)電裝機(jī)容量25.6億千瓦,同比增長7.8%。從分類型投資、發(fā)電裝機(jī)增...
一、主要脫硫技術(shù)發(fā)展現(xiàn)狀分析1、煙氣脫硫技術(shù)分類目前工業(yè)上的脫硫工藝主要用加氫脫硫技術(shù)(HDS),它在氧化的過程中...
監(jiān)控?cái)z像機(jī)是用在安防方面的準(zhǔn)攝像機(jī),它的像素和分辨率比電腦的視頻頭要高,比專業(yè)的數(shù)碼相機(jī)或dv低。監(jiān)控?cái)z像機(jī)大多...
一、脫硝催化劑原材料市場分析“催化劑”是一種有助于改變物質(zhì)的化學(xué)反應(yīng)的物質(zhì),它可以改變反應(yīng)的速率,但不會影響最...
一季度白羽肉雞祖代種雞更新增加據(jù)卓創(chuàng)資訊數(shù)據(jù)統(tǒng)計(jì),一季度國內(nèi)白羽肉雞祖代種雞總更新量26.66萬套,環(huán)比增加42.87%...
欲了解更多有機(jī)農(nóng)產(chǎn)品基地行業(yè)的未來發(fā)展前景,可以點(diǎn)擊查看中研普華產(chǎn)業(yè)院研究報(bào)告《2022-2027年中國有機(jī)農(nóng)產(chǎn)品基地2...
中研普華集團(tuán)聯(lián)系方式廣告服務(wù)版權(quán)聲明誠聘英才企業(yè)客戶意見反饋報(bào)告索引網(wǎng)站地圖 Copyright ? 1998-2022 ChinaIRN.COM All Rights Reserved. 版權(quán)所有 中國行業(yè)研究網(wǎng)(簡稱“中研網(wǎng)”) 粵ICP備05036522號
微信掃一掃