Sora—人工智能的里程碑

[日期:2024-10-17] 作者:信息技術(shù) 次瀏覽 [字體: ]

2025屆15班 羅天瑞   指導(dǎo)教師:付秀軍

圖片3.png

       “AI”一詞,從去年到現(xiàn)在都十分火熱。由最早的小愛同學(xué)等一批AI,再到如今的Chat GPT,人們對(duì)于AI的了解在一步一步前進(jìn);從簡(jiǎn)單的發(fā)送命令,再到現(xiàn)在的可以聊天,繪畫,扮演等,AI的功能也在一步一步增加。

       不久前,世界第八屆渲染大賽開始,主題為“無(wú)盡階梯”,各路大神都帶著自己的力作參與其中,但有可能的是,這是最后一屆審核較為輕松的了。因?yàn)樵?024年初,OpenAI發(fā)布了新型人工智能“Sora”,Sora可以根據(jù)用戶提供的圖片,生成出延續(xù)其風(fēng)格和主題的視頻,或者在原有視頻的基礎(chǔ)上,添加或刪除一些元素,創(chuàng)造出新的效果。

       那為什么Sora比GPT的關(guān)注度更高呢?   

       首先大家可能都見過GPT等AI的繪畫吧。雖比人工繪畫更高效,更便捷,但問題就在于它的不協(xié)調(diào)??赡墚嬕恢皇郑嫵?個(gè)手指頭,可能人背對(duì)屏幕看電視。但Sora不同,Sora能夠模擬出物體和角色在三維空間中的運(yùn)動(dòng)和交互,即使它們被遮擋,也可以保持一致性,同時(shí)還能夠模擬出物理交互的反饋,比如畫家在畫紙上的筆觸,或者球員在球場(chǎng)上的動(dòng)作,讓視頻看起來(lái)更加真實(shí)自然。

       在寒假,抖音、快手上熱火的《洗澡歌》是由通義千問所合成的,但是十分短暫。Sora卻達(dá)到了新高度,它能夠生成長(zhǎng)達(dá)60秒的視頻,這在目前的人工智能領(lǐng)域是前所未有的。以往的文生視頻大模型,如Pika、RunwayML等,最多只能生成20秒的視頻,而且畫質(zhì)和內(nèi)容都不盡人意。Sora則突破了這一限制,不僅能夠生成長(zhǎng)視頻,而且能夠包含多角色和多角度的鏡頭,讓視頻更加豐富多彩。

       Sora還有驚人的一點(diǎn),那就是它的參數(shù)量。

       參數(shù)量是衡量一個(gè)模型復(fù)雜度的指標(biāo),一般來(lái)說,參數(shù)量越大,模型越復(fù)雜,能力越強(qiáng),但也越耗費(fèi)算力。Sora的為30億,但是對(duì)比萬(wàn)億級(jí)別Gemini,顯然并不算多。不過雖然數(shù)值上沒有那么強(qiáng)勢(shì),Sora在視頻上的生產(chǎn)力卻遠(yuǎn)超Gemini,說明什么?說明Sora的模型十分高效,能在有限的參數(shù)下,實(shí)現(xiàn)它強(qiáng)大的功能。

       Sora的誕生,無(wú)疑是AI的里程碑,不過一個(gè)事物的誕生,往往也伴隨著質(zhì)疑。

       Sora生產(chǎn)的視頻,質(zhì)量往往會(huì)隨時(shí)間推移得到更好的提升,等真到了以假亂真的時(shí)候,視頻、影視等相關(guān)行業(yè)將大概率消失,此前因?yàn)轭愃频脑蚓桶l(fā)生過2023年好萊塢演員大部分罷工的事件了。

       對(duì)于AI,人們的質(zhì)疑從未停過 霍金曾經(jīng)說人類應(yīng)停止對(duì)AI的研究,對(duì)于Sora的誕生,特斯拉創(chuàng)始人馬斯克也發(fā)出了“gg humans”!

       但是360的創(chuàng)始人周鴻祎卻又是這樣評(píng)價(jià)的:

       “年前我在風(fēng)云演講上分享了十大模型預(yù)測(cè),沒想到年還沒過完,就驗(yàn)證了好幾個(gè),從Gemini,英偉達(dá)的Chat with RTX到OpenAI的Sora,大家都覺得很炸裂。朋友問我怎么看Sora,總體來(lái)說就是我認(rèn)為AGI(人工通用智能)很快就會(huì)實(shí)現(xiàn),就這幾年的事了。”

       作為一名對(duì)計(jì)算機(jī)科學(xué)知識(shí)高度感興趣的中學(xué)生,我對(duì)于Sora以及AI的認(rèn)知是這樣的:

       對(duì)于GPT、Sora的泛用性會(huì)更高。Gpt在平時(shí),可能就只是聊天的一個(gè)同伴,在我們學(xué)習(xí)和大人的工作上很少起作用,而在視頻創(chuàng)作領(lǐng)域Sora出現(xiàn)的頻率則明顯會(huì)更高。雖然Sora創(chuàng)造的視頻也并不是有多么精美,多么讓人感嘆,但它最大的優(yōu)勢(shì)就是創(chuàng)作的視頻能完全符合你對(duì)現(xiàn)實(shí)生活的認(rèn)知,在某種情況下甚至可以讓人認(rèn)為是真人拿手機(jī)拍的。就比如說電影,是人們消遣娛樂的一種方式,其中部分鏡頭會(huì)涉及到大量的群眾演員,尋找合適的人群是個(gè)難題。從今往后有群演的地方就可以使用Sora了,大量節(jié)省了人力和財(cái)力。相信《科幻世界》三月刊《永恒之境》中所描述的那種情況可能很快就會(huì)到來(lái)。

       但也正因如此,以后我們對(duì)AI生產(chǎn)的視頻、照片等媒體需要更加細(xì)心,壞人也可能會(huì)使用Sora進(jìn)行敲詐、勒索,我們需提高“媒介素養(yǎng)”。

       AI的前景擁有著許多不確定的因素,我們對(duì)于它們的應(yīng)用也應(yīng)該有所限制。大多數(shù)人提起所謂的“機(jī)器人三大定律”卻不知道它最早源自科幻小說,AI給我們生活提供了極大的便利性,人工與AI合作,并且不過度依賴的情況下,相信我們的生活會(huì)愈加美好。