當前位置：人工智能實驗室> 人工智能動態(tài) > 兩次走出低谷后，人工智能正重新占據(jù)舞臺中心

兩次走出低谷后，人工智能正重新占據(jù)舞臺中心
來源：互聯(lián)網發(fā)布日期：2024-02-28 18:40:21 瀏覽：4344次

導讀：2月16日早上，王祚的手機里收到了一條公眾號推送，文章標題直白且不加掩飾現(xiàn)實，不存在了。這句看似從科幻小說《三體》中借鑒來的標題吸引了王祚，出于好奇，他打開了這篇推文。文章中講述的是美國開放人工智能研究中心（OpenAI）推出的視頻生成模型Sora，...

2月16日早上，王祚的手機里收到了一條公眾號推送，文章標題直白且不加掩飾“現(xiàn)實，不存在了。”

這句看似從科幻小說《三體》中借鑒來的標題吸引了王祚，出于好奇，他打開了這篇推文。文章中講述的是美國開放人工智能研究中心（OpenAI）推出的視頻生成模型Sora，它使用Transformer架構，可根據(jù)文本指令創(chuàng)建現(xiàn)實且富有想象力的場景，生成多種風格、不同畫幅、最長60秒的高清視頻。

繼推出大語言模型ChatGPT后，OpenAI又進軍了視頻生成領域，雖然發(fā)布的視頻只是預覽版本，但其視覺效果已然令人咋舌。

“Sora的視覺效果讓我十分驚訝。”王祚對新京報記者說道。他目前就讀于中國傳媒大學，是數(shù)字媒體藝術專業(yè)的碩士研究生，還對人工智能繪畫進行過廣泛的研究。王祚補充道，Sora生成的視頻整體相對舒適，構圖色彩也都在一定程度上滿足了當下的需求，“專業(yè)師生的整體評價也都是以夸贊為主。”

驚訝于人工智能技術日新月異的同時，外界的擔憂也隨之到來。OpenAI對Sora的期許是“世界模擬器”，在模擬世界的過程中，人工智能生成視頻似乎在進一步模糊現(xiàn)實世界本就脆弱的真假界限，推動“深度偽造”（deepfake）不斷涌現(xiàn)，正如最開始吸引王祚的那篇推文所發(fā)出的感嘆，現(xiàn)實是否就此不復存在？

向前一大步

Sora的出現(xiàn)很快在王祚的同學和老師間引發(fā)了討論，從視覺效果到背后技術，以及人工智能可能對數(shù)字媒體專業(yè)產生的影響。

根據(jù)OpenAI的介紹，Sora能夠生成包含多個角色、特定運動類型，精確主題以及背景細節(jié)的復雜場景，它不僅了解用戶在文本提示中的要求，還能理解所述內容在物理世界中的存在方式。

Sora并不是同類產品中的第一個，谷歌、Meta等公司也都有類似的技術，但OpenAI展示出的幾個高質量預告視頻，讓不少觀察者驚詫不已。在王祚看來，Sora的整體性邏輯以及視覺觀感其實都已經遠遠超越之前一些所謂的人工智能生成視頻的工具，“從這一點來說，Sora取得了飛躍式的進步。”

Sora生成的視頻截圖。圖/OpenAI官網

視頻的呈現(xiàn)令外界印象深刻，但在Sora項目研究人員的眼中，它最令人吃驚的能力是那些它并沒有被訓練過的能力。Sora建立在過去對DALLE和GPT模型的研究基礎上，《連線》雜志指出，Sora不僅可以大量制作滿足文本提示要求的視頻，它還有一定講故事的天賦。

“Sora通過鏡頭的角度和轉換鏡頭的時機創(chuàng)造了一種敘事推力。”Sora項目中的一名研究人員比爾皮布爾斯（Bill Peebles）說道，實際上視頻中出現(xiàn)了多個鏡頭變化，這些并非拼接到一起，而是由模型一次性生成，“我們沒有告訴它要這么做，它只是自動做到了。”

還在研發(fā)中的Sora也并非完美。王祚指出，雖然OpenAI發(fā)布的是具有代表性、較為完美的樣片，但他也看到了其他博主在獲得Sora使用權限后生成的一些視頻，其中個別邏輯有明顯差錯，例如做出吹蠟燭動作后，火苗并沒有隨之熄滅，玻璃杯接觸地板后也沒有應聲摔碎。

OpenAI自己也承認，目前的模型仍存在弱點，Sora生成視頻中可能包含不合邏輯的圖像，混淆左右等空間細節(jié)，難以準確模擬復雜場景的物理原理和因果關系實例，但隨著算力的增加，視頻生成功能會變得更加完善。

一些分析人士認為，人工智能在視頻生成領域的巨大發(fā)展前景可能將對影視產業(yè)帶來打擊。不過，王祚并未對此過于擔心，“無論是人工智能視頻還是人工智能繪畫，都是基于大量數(shù)據(jù)的訓練，可以通俗地理解為是已有內容的排列和組合，它們很少具備涌現(xiàn)的能力，仍然受到其算法設計、訓練數(shù)據(jù)集的質量和多樣性以及當前技術限制的約束。并且，人工智能生成的藝術作品的涌現(xiàn)性質通常是基于大量數(shù)據(jù)處理和模式識別的結果，而不是源自人類藝術家那樣的主觀創(chuàng)造動機或深層次的文化理解。”

王祚解釋稱，以人工智能繪畫為例，它也只是取代了技術含量相對不高的內容，身邊的從業(yè)者多數(shù)在利用人工智能輔助創(chuàng)作，為自身創(chuàng)作提供靈感。本專業(yè)的師生整體對行業(yè)仍持樂觀態(tài)度，退一步說，即便人工智能取代了部分工作，它同樣會帶來新的工作機會。

綜合來看，Sora的出現(xiàn)仍讓行業(yè)內為之一振。“Sora的推出標志著人工智能行業(yè)向前邁出了一大步。”麥格里銀行美國人工智能和軟件研究主管弗雷德哈弗邁耶（Fred Havemeyer）說道。

2023年被稱為“人工智能元年”，在大語言模型ChatGPT的助推之下，2023年掀起了生成式人工智能的熱潮，活躍的開源環(huán)境和多模態(tài)模型一同推動了人工智能研究的進步。“如果說2023年是人們意識到人工智能的一年，那么2024年將是人工智能整合的一年。”美國西北大學計算機科學教授克里斯蒂安哈蒙德（Kristian Hammond）對新京報記者指出，人們將想辦法把這些新奇的玩具運用到生活之中。

新京報記者專訪美國西北大學計算機科學教授克里斯蒂安哈蒙德、美國密歇根州立大學丹佛分校計算機科學系主任史蒂夫比蒂。

走出“寒冬”

美國加州大學洛杉磯分校生物學教授賈雷德戴蒙德曾在《槍炮、病菌與鋼鐵人類社會的命運》一書中寫到，技術的發(fā)展是累積式的，而不是英雄憑空捏造的。這句話同樣可以用來形容人工智能的發(fā)展。

最近一段時間，人工智能似乎成了國際熱詞。2023年年末，數(shù)家詞典出版社選擇的年度詞語都與人工智能有關，但在這些年的發(fā)展中，人工智能也曾一度坐上“冷板凳”。

人工智能的概念最早由英國數(shù)學家圖靈提出。他在《計算機和智能》中提出了一個問題機器能思考嗎？圖靈認為沒有令人信服的證據(jù)認為機器不能像人類一樣聰明地思考，可以采取不同的方法來推進機器的智能。

人工智能一詞的來處可以追溯到1955年。那時，時任達特茅斯學院數(shù)學系助理教授、1971年圖靈獎獲得者麥卡錫、時任哈佛大學數(shù)學系和神經學系青年研究員、1969年圖靈獎獲得者明斯基等科學家向美國洛克菲勒基金會遞交了一份建議書，希望基金會能資助他們于1956年夏天在達特茅斯開一場有關“人工智能”（Artificial Intelligence，簡稱AI）的研討會，人工智能一詞由此誕生。

Sora生成的視頻截圖。圖/OpenAI官網

從定義而言，人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。從這個詞被創(chuàng)造出來到20世紀70年代，出現(xiàn)了至今都在使用的編程語言和探索機器人概念的書籍和電影，人工智能幾乎成為主流概念。

但在打破人工智能最初的迷霧后，人們也看到了堆積如山的障礙。美國密歇根州立大學丹佛分校計算機科學系主任史蒂夫比蒂（Steve Beaty）對新京報記者指出，從本質上講，當時的人工智能的發(fā)展主要受到計算機硬件能力的限制。

計算機無法存儲足夠的信息，也無法以足夠快的速度處理信息。麥卡錫的博士生漢斯莫拉維克（Hans Moravec）當年沮喪地說道，“計算機的性能弱了數(shù)百萬倍，無法展現(xiàn)智能。”隨著耐心的減少，資金也隨之減少，人工智能研究工作在十年間緩慢推進。1974年到20世紀80年代初期這段時間，被科學新聞網站“livescience”稱為“人工智能的第一個寒冬”。

直到20世紀80年代，人工智能研究再次被點燃。首先是算法工具的擴展，“深度學習”技術得以推廣，允許計算機利用經驗進行學習，以及模擬人類專家決策過程的專家系統(tǒng)被引入。其次，資金也在進一步增加，作為第五代計算機項目的一部分，日本政府大力資助了專家系統(tǒng)和其他與人工智能相關的研究，目的是徹底改變計算機處理，實現(xiàn)邏輯編程和改進人工智能。

不幸的是，大多數(shù)野心勃勃的目標都沒有實現(xiàn)，隨后人工智能也淡出了人們的視線，迎來了行業(yè)的第二個寒冬。

盡管在此期間缺乏一定資金，但人工智能在上世紀90年代以及21世紀初取得了一些令人印象深刻的進步。1997年，國際象棋世界冠軍加里卡斯帕羅夫（Gary Kasparov）被計算機程序“深藍”（Deep Blue）擊敗。同年，美國聲龍公司（Dragon Systems）開發(fā)的語音識別軟件在Windows上得以實現(xiàn)。

事實上，人類在編寫人工智能代碼上并沒有變得更聰明，只是以前阻礙發(fā)展的計算機存儲問題已經不再是一個問題。伴隨著研究興趣和資金再次激增，人類的生活進入了“大數(shù)據(jù)時代”，這使得人工智能取得了更大的進展。

“背后的硬件能力終于趕了上來，似乎在突然之間，人工智能開辟了廣闊的視野，人類可以將其應用于文字、音頻以及制作圖像逼真的視頻。”比蒂說道，2023年以及2024年是人工智能技術從理論進入實踐的年份，從只有學者使用高功率機器才能完成相應技術到幾乎任何人只要擁有一部連接網絡的電腦，就可以制作各種各樣的圖像、音頻與視頻。

從真實到虛假

在人們當下的生活里，人工智能似乎無處不在。

從英國曼徹斯特大學的克里斯托弗斯特雷奇（Christopher Strachey）編寫西洋跳棋程序到今天，人工智能已經被用于幫助疫苗進行RNA測序和人類語言建模。自2023年以來，以ChatGPT聊天機器人程序為代表的生成式人工智能更是引發(fā)全球關注�？萍季W站“BuiltIn”指出，人工智能正以前所未有的方式重新占據(jù)舞臺的中心，而且它沒有很快讓出聚光燈的打算。

“我們在網上做的任何事情都離不開人工智能。”哈蒙德說道，搜索引擎上會有人工智能組件預測你想要尋找什么，提供信息、產品或進行推薦的平臺背后都有人工智能的痕跡。語音識別以及面部識別也都與人工智能有關。

在一系列引人注目的人工智能應用涌現(xiàn)的刺激下，美國皮尤研究中心邀請305名研究人員、技術創(chuàng)新者、商業(yè)領袖以及學者做了一份調查，想看看業(yè)內專家對數(shù)字化未來的期許。

調查發(fā)現(xiàn)未來的確有許多美好的期待，他們期望人工智能會在醫(yī)療和教育方面有顯著改善，在環(huán)境可持續(xù)性、氣候行動方面取得進展。屆時，人們戴上智能眼鏡和耳機與周圍的人、事物保持聯(lián)系。

OpenAI將發(fā)布視頻生成模型Sora。圖/IC photo

值得注意的是，與此同時，他們也看到了人工智能會出錯的地方。專家對數(shù)字技術似乎正在以不可阻擋的速度和范圍發(fā)展而感到擔憂，擔心數(shù)字系統(tǒng)可能會繼續(xù)受到經濟上的利潤激勵和政治上的權力激勵，這可能會加劇不平等、損害民主制度，侵犯個人隱私。人工智能還會導致深度偽造，被用于生成虛假信息來欺騙大眾。

技術不會止步于此。在Sora出現(xiàn)后，加利福尼亞大學伯克利分校信息學院副院長法里德表示，沒有理由相信文本到視頻的技術不會繼續(xù)快速發(fā)展，這將使公眾越來越接近一個難以區(qū)分真假的時代。這項技術如果與人工智能語音克隆（AI-powered voice cloning）相結合，可能會開辟一個全新的前沿，創(chuàng)造出深度偽造內容。

尤其在2024年，人工智能導致的深度偽造問題更為突出。今年年初，世界經濟論壇發(fā)布了《2024年全球風險報告》，其中將人工智能產生的錯誤信息和虛假信息列為2024年世界面臨的最重大風險之一。

不幸的是，人們擔心的事情正在一步步變成現(xiàn)實。不久前，模擬美國總統(tǒng)拜登聲音的機器人電話打到了新罕布什爾州初選選民的手機上，由人工智能生成的美國歌手泰勒斯威夫特帶貨廣告也在社交媒體上大肆傳播。

“簡而言之，我們現(xiàn)在很難知道該相信什么。”比蒂說道，人們在10年前至少還相信視頻，現(xiàn)在虛假視頻也隨處可見。雖然新科技讓人們更難識別虛假信息，但也并非完全不可能。公眾仍需依賴常識找到多個信源，面對海量信息學會慢下來靜待發(fā)展。最后，問題根源中也潛藏著解決辦法，公眾也應該學會用人工智能應對人工智能。

落后的監(jiān)管

盡管人工智能行業(yè)在近些年蓬勃發(fā)展，但出于對其潛在風險的擔憂，業(yè)內開始出現(xiàn)要求暫緩腳步的聲音。

值得一提的是2023年3月份，圖靈獎得主約書亞本吉奧、加州大學伯克利分校計算機科學教授斯圖爾特羅素、企業(yè)家埃隆馬斯克等人聯(lián)名發(fā)表公開信，呼吁暫停巨型人工智能實驗。羅素曾在接受新京報采訪時表示，他們的目的是利用這段時間制定和落實人工智能的安全標準，稱要像監(jiān)管核能一樣監(jiān)管強大的人工智能。

從后續(xù)的事態(tài)發(fā)展來看，這封公開信起到了一定的效果。8個月后，首屆全球人工智能安全峰會在英國布萊切利莊園召開，全球28個國家和歐盟簽署了《布萊切利宣言》，這是全球第一份針對人工智能這一快速新興技術的國際性聲明。隨后，包括美國、英國在內的18個國家簽署并公布《安全人工智能系統(tǒng)開發(fā)指南》，保護公眾數(shù)據(jù)不被濫用。

當?shù)貢r間2023年11月1日，首屆全球人工智能安全峰會在英國布萊切利莊園召開，全球科技公司的高管和政府官員等近百名代表出席。圖/IC photo

2023年末，歷經馬拉松式談判，歐洲議會、歐盟成員國和歐盟委員會三方就《人工智能法案》達成協(xié)議，該法案將成為全球首部人工智能領域的全面監(jiān)管法規(guī)，其中內容包括將嚴格禁止“對人類安全造成不可接受風險的人工智能系統(tǒng)”，包括有目的地操縱技術、利用人性弱點或根據(jù)行為、社會地位和個人特征等進行評價的系統(tǒng)等。

據(jù)新華社報道，為規(guī)范生成式人工智能的應用，中國已發(fā)布《互聯(lián)網信息服務深度合成管理規(guī)定》與《生成式人工智能服務管理暫行辦法》等多項規(guī)章，對人工智能相關技術規(guī)范、義務主體與責任作出規(guī)定，強調技術開發(fā)、服務提供者的主體責任。

人工智能的監(jiān)管工作正在邁開腳步。哈蒙德表示，他個人認為歐盟的做法很不錯，他們并未過多考慮技術，而是更多地考慮風險，建立風險的等級機制。在高風險情況下，會對算法、數(shù)據(jù)和使用提出更多要求。

眼下監(jiān)管也只觸及皮毛。比蒂補充道，監(jiān)管總是落后于技術，監(jiān)管需要對技術作出有意義的平衡，確保技術被用于善而不是惡。他正在第一線接觸監(jiān)管立法工作，比蒂參加了科羅拉多州的一個立法特別工作組，“我們所能做的是盡最大努力制定一套合理的法規(guī)。與此同時，教育民眾，讓他們知道這項技術的能力，即便它還沒有受到全面監(jiān)管。”

需要強調的是，不僅需要對人工智能可能產生的風險進行監(jiān)管，人工智能訓練迭代本身也需要進一步規(guī)范。例如，生成式人工智能除了讓OpenAI名聲大噪外，也給該公司帶來了不少的法律訴訟。

截至目前，對OpenAI提出侵犯版權訴訟的原告包括美國作家協(xié)會、《紐約時報》以及數(shù)名作家和普利策獎得主，他們聲稱，在未經授權的情況下，OpenAI擅自使用他們的作品訓練大語言模型。

知識版權之爭突出了人工智能和內容創(chuàng)作者間的權益邊界問題。王祚曾專門研究過人工智能繪畫涉及的版權問題。“可能在大家沒有意識到自己的數(shù)據(jù)會被喂給人工智能的情況下，已經被盜用了。”

他進一步解釋稱，機器學習能力遠超過人類，如果人工智能學習某一位創(chuàng)作者的設計風格，對其進行復制或微調，都會對創(chuàng)作者權益造成損害。目前有關數(shù)據(jù)所有權的意識正在逐步建立，有些網站會新增條款，明確標注“No AI”，去保護創(chuàng)作者的權益。

隨著人工智能不斷發(fā)展，許多業(yè)界專家將目光放得更遠，不僅看到人工智能可能會侵犯人類權益，也開始警惕其對人類文明的沖擊。羅素曾警告稱，若沒有相應的規(guī)劃和管理，人類可能失去對人工智能的控制，產生“文明終結”級別的嚴重后果。

談及未來人類與人工智能間的關系，哈蒙德則顯得樂觀許多，他將構建人工智能想象成撫養(yǎng)一個孩子，大家當然希望孩子比自己更聰明、更成功，同時不要傷害別人，“應該思考的是如何讓人工智能與人類保持一致，我無法想象人工智能會在人類沒有設定的情況下，試圖消滅一切工作或要接管一切，我們應計劃的是未來人類與人工智能間的伙伴關系。”

新京報記者欒若曦劉婧瑜

編輯張磊校對趙琳