百度智能創(chuàng)作app,百度智能創(chuàng)作app官網(wǎng)下載?
隨著ChatGPT、文心一言的發(fā)布,AI繪畫再度火出圈,近日Adobe、微軟必應也加速推出了AI生成圖像的新品,分別為Adobe Firefly和Bing Image Creator。
意外的是,過去一周,百度文心一言生成的繪畫作品在網(wǎng)上遭遇“群嘲”,原因在于其繪畫功能對中文成語的理解僅停留在字面意思,如網(wǎng)友輸入“夫妻肺片”后文心一言生成了一對露出肺部結(jié)構(gòu)的夫妻,輸入“魚香肉絲”,文心一言畫出了一條由肉絲做成的魚,輸入“胸有成竹的男人”則畫出一個胸部長出竹子的人……
3月22日,南都記者對百度文心一言和Bing Image Creator進行實測,發(fā)現(xiàn)兩款產(chǎn)品在中文成語和英文俚語的理解能力方面均不完善,只能根據(jù)字面意思來繪畫。如在Bing Image Creator中輸入“a cat nap(打盹)”會生成貓的圖像,輸入“raining cats and dogs(傾盆大雨)”則會畫出淋雨的貓和狗。(詳見此前報道>>>)
3月23日,百度發(fā)文回應稱,注意到對文心一言文生圖功能的相關(guān)反饋,并進行了回應說明?!?、文心一言完全是百度自研的大語言模型,文生圖能力來自文心跨模態(tài)大模型ERNIE-ViLG。2、在大模型訓練中,我們使用的是互聯(lián)網(wǎng)公開數(shù)據(jù),符合行業(yè)慣例。大家也會從接下來文生圖能力的快速調(diào)優(yōu)迭代,看到百度的自研實力。文心一言正在大家的使用過程中不斷學習和成長,請大家給自研技術(shù)和產(chǎn)品一點信心和時間,不傳謠信謠,也希望文心一言能夠給大家?guī)砀鄽g樂?!?/p>
在萬興科技戰(zhàn)略負責人唐芳鑫看來,目前文心一言的整體生成效果是不錯的,出錯的原因是訓練時間沒那么久,同時自媒體在傳播上傾向于找一些不好的圖片來吐槽?!皬募夹g(shù)上來說我相信百度以及國內(nèi)廠商能夠做好,效果提升只是時間問題,我們一開始做海外模型效果也不好,但是一段時間過去以后,效果已經(jīng)可以做到跟海外差別不大了?!碧品荐蜗蚰隙加浾弑硎?。
AI繪圖被玩壞,下一個是AI視頻創(chuàng)作?
事實上,在ChatGPT問世之前,AI繪畫早已被運用到專業(yè)領(lǐng)域。2018年第,一張公開展出的、由人工智能創(chuàng)作的繪畫作品《埃德蒙·貝拉米的肖像》在佳士得拍賣行以43.25萬美元成交,那是一張由機器學習了從14世紀到20世紀的1.5萬張肖像畫之后自動生成的肖像畫作品。2022年12月,在朵云軒拍賣30周年慶典拍上,由百度文心一格續(xù)畫的民國才女陸小曼未盡稿聯(lián)同著名海派畫家樂震文補全的同名畫作《未完·待續(xù)》,以110萬元落槌成交。這也是全球首個AI山水畫作的成功拍賣。
全球首個AI山水畫作《未完·待續(xù)》以110萬元成功拍賣。
隨著ChatGPT和文心一言的火爆,AI繪畫的關(guān)注度持續(xù)上升,被越來越廣泛地運用到個人創(chuàng)作領(lǐng)域。在業(yè)內(nèi)人士看來,AI繪畫相比去年在效果上已經(jīng)有了很大提升,同時成本持續(xù)降低,這也是其持續(xù)出圈的原因。
“AI繪畫在效果方面的變化很大,去年剛開始出來的漫畫奇怪,識別的東西都很假,AI繪畫讓大家覺得很逗,而今年最新的Midjourney V5畫亞洲風格人的時候已經(jīng)很像了,完全分辨不出是AI畫的了。第二個變化是它變得可控。去年我們輸入文字之后,不知道它結(jié)果是什么,有一種開盲盒的感覺。現(xiàn)在它的結(jié)果變得更加可控,可控以后就能大幅提升效率了。從實際算法模型來看,算法的效率提升了,需要使用的服務器資源減少?!比f興科技戰(zhàn)略負責人唐芳鑫向南都記者表示。
萬興科技為創(chuàng)意軟件A股上市公司,自去年開始針對前沿科技組建百人技術(shù)團隊,并壓強式投入文字生成視頻、文字生成圖像、視頻AR、虛擬人等新技術(shù),目前旗下AIGC新品萬興愛畫已實現(xiàn)網(wǎng)頁端、iOS、安卓、微信小程序多端覆蓋,并推出“AI簡筆畫”新功能,支持文字繪畫、以圖繪圖、簡筆畫三種AI創(chuàng)作模式。此外旗下視頻創(chuàng)意軟件萬興喵影、Wondershare Filmora也已集成AIGC能力。
AI領(lǐng)域?qū)<?、開域集團董事長兼CEO施侃同樣向南都記者指出,ChatGPT等現(xiàn)象級產(chǎn)品的出現(xiàn),意味著模型規(guī)模、數(shù)據(jù)和算力的大幅擴充使得大模型生成能力得到了根本性的提升,完成了從量變到質(zhì)變的過程,涌現(xiàn)出“出人意料”的創(chuàng)作和推理的能力。其中AI繪畫,近兩年也因為基于Diffusion大模型的圖像生成能力的飛躍而正式進入了產(chǎn)品和技術(shù)應用階段。
“AI生成圖像效果的提升,對繪畫和視頻工作領(lǐng)域來說,很明顯的變革就是幫忙解決了很多基礎性的工作。例如,對游戲畫師來說,只要簡單勾勒一下我就可以幫你生成4幅不一樣的風格的畫出來,甚至可以自動幫你配色,配完色以后我還可以幫你生成平面效果圖,可以解決你很多重復性的工作,讓你更多地放在你的創(chuàng)意上,或者是我做出來讓你自己做選擇?!碧品荐伪硎?。
隨著AI繪畫逐漸成熟,AI在視頻創(chuàng)作領(lǐng)域的應用也近在咫尺。據(jù)施侃介紹,在視頻創(chuàng)作領(lǐng)域,AI輔助甚至主導完成內(nèi)容創(chuàng)作的AIGC模式正被關(guān)注。如開域集團近期發(fā)布了針對視頻創(chuàng)作者的AIGC技術(shù)平臺——Q.AI(aicenter.cue.group),該平臺具有AI視頻檢索,視頻AI生成兩大功能,在視頻生成模塊中,用戶只需輸入一句文本,平臺會應用AIGC大模型自動擴充生成一段相關(guān)視頻腳本,并在幾分鐘內(nèi)生成數(shù)個完整的專業(yè)級短視頻。包括畫面素材、背景音樂、旁白配音以及字幕,都是由AI自動生成和匹配,這將大大提升創(chuàng)作者的工作效率。
AI繪圖門檻不高,生成視頻仍需時間
對于AI繪圖背后的成本,唐芳鑫向南都記者表示,目前算法訓練成本確實很高,訓練的時候需要大量的數(shù)據(jù),需要長時間以及更多服務器來做整個的模型訓練,但隨著越來越多的IT技術(shù)專家進入這一領(lǐng)域后,會逐漸提升算法模型的效率。
“這是工程化的問題,而且工程化的效率一定是十倍和百倍地提升,那個時候帶來的反而就是成本的下降,服務器的成本不會是AIGC目前的大問題?!碧品荐畏Q,“真正的問題是在于視頻領(lǐng)域,目前我們在視頻領(lǐng)域,全球范圍內(nèi)缺少比較好的高精度的素材,要大規(guī)模應用,我預計還需要2-3年。”
施侃也向南都記者介紹,目前AI生成圖像的算力門檻不高,在視頻領(lǐng)域的應用上仍有難度。
“目前圖像生成領(lǐng)域主流是以diffusion model為基礎的模型,如OpenAI的DALL-E2,開源的Stable Diffusion等。例如DALL-E2模型有35億個參數(shù),數(shù)據(jù)集的話參照LAION-5B大約有50億圖文數(shù)據(jù)對。從模型復雜度和數(shù)據(jù)規(guī)模可知,比ChatGPT的訓練成本小至少一個數(shù)量級,GPU的消耗量也大概是這個比例。 而且模型微調(diào)的成本很低,因此圖像生成領(lǐng)域,對算力的門檻要求要比LLM(大語言模型)低很多?!笔┵┓Q,“至于視頻生成的應用也有很多類別,比如數(shù)字人就已經(jīng)應用了。如果按照目前文本生成圖像的方式,還沒有類似ChatGPT、stable diffusion這種相對成熟的模型,目前主要還是基于diffusion模型,在時間和空間上進行擴展,訓練數(shù)據(jù)也相對地會擴充。如Google的video diffusion model用了1000萬的帶標題視頻進行訓練,但目前看算力需求量還不會達到大語言模型的級別?!?/p>
“在AI生成圖像和繪畫的應用方面,目前單一圖像的生成已經(jīng)跨越了應用的門檻,很多內(nèi)容創(chuàng)作者和設計師已經(jīng)開始在工作中使用了,但是對于生成同一主題的序列圖像,目前還沒有很好的方法可以精準的控制,這也是研究的一個主要方向。如果模型做到了這一點,我們就可以為一個故事腳本生成一系列同人物和背景的配圖,這樣應用場景比單一圖片就大大拓展了。進一步,可以這些配圖為錨點進一步生成連續(xù)的視頻?!笔┵┲赋?。
據(jù)施侃介紹,開域集團自2017年起開始重金投入研發(fā)AI技術(shù)。在AIGC領(lǐng)域,與ChatGPT類似的是,開域集團的AI模型也是通過對海量數(shù)據(jù)集進行訓練學習,從而產(chǎn)生理解和創(chuàng)作的能力;不同之處在于,ChatGPT的學習素材是文本,開域AIGC技術(shù)的學習素材主要是多模態(tài)圖像和視頻數(shù)據(jù),技術(shù)路線是在垂直應用領(lǐng)域,使用多個大模型的組合應用,從文本或圖像自動生成視頻等內(nèi)容。
從AI輔助辦公、繪圖,到AI制作視頻、3D建?!?/strong>
自ChatGPT發(fā)布以來,人工智能技術(shù)的應用也迎來了新一輪高潮,在搜索引擎、辦公軟件、繪畫等領(lǐng)域紛紛掀起“AI革命”。上周,微軟推出AI工具Microsoft 365 Copilot,谷歌也宣布了旗下辦公套件將全面引入AI。本周,微軟必應推出了可以畫畫的Bing Image Creator,Adobe推出了新的人工智能工具Firefly(螢火蟲),正式殺入AIGC商業(yè)化賽道。
對于AIGC在辦公和繪圖兩個領(lǐng)域率先應用的現(xiàn)象,唐芳鑫表示,是完全符合發(fā)展趨勢的,因為目前技術(shù)最成熟的是文本,其次是圖片,預計接下來將會應用在視頻和3D領(lǐng)域。
“Microsoft 本身是個文本模型,所以在以圖文為主的辦公軟件它是最適合的。Adobe是圖片領(lǐng)域,而這個領(lǐng)域的素材也是比較多的,所以這兩個領(lǐng)域應該是目前發(fā)展得比較成熟的。”唐芳鑫表示,一旦圖片成熟以后,接下來視頻肯定也會起來,因為視頻其實就是一幀一幀的圖片,大規(guī)模應用只是時間問題。
“視頻之后可能會是3D,3D會較為復雜,因為目前模型不多,而且目前3D應用場景也不是特別廣,所以會更慢一些?!碧品荐芜M一步表示,未來很多產(chǎn)品都會發(fā)生改變,因為AIGC改變的不僅僅是某一個圖文視頻技術(shù),而是整個交互方式和產(chǎn)品邏輯。
在施侃看來,聊天機器人之所以受到熱捧,是因為它讓產(chǎn)品與用戶之間沒有邊界感,大家可以隨便提各種各樣的問題,它都能給出一個相對高質(zhì)量的回復,這讓大家可以把它當做“朋友”一樣去接觸,從而拉近了科技和普通用戶的距離。
“辦公場景相對更復雜,由于每個人的思維和工作方式不同,辦公工具應該盡量順應并模仿人腦的工作方式,這意味著現(xiàn)代辦公場景中,我們對工具靈活性的人要求越來越高?!笔┵┓Q,AIGC有望驅(qū)動體系化的產(chǎn)品重構(gòu)與模式創(chuàng)新,輔助用戶完成更多的辦公功能,比如起草工作郵件,記筆記、做會議紀要、寫簡歷、撰寫營銷文案、做競品分析、市場調(diào)研等事務性工作,由AI驅(qū)動的現(xiàn)代工具有望提高個人、團隊和組織層面的生產(chǎn)力,并從根本上改變我們的工作方式。
除了聊天和辦公場景之外,施侃指出,長遠來看AI技術(shù)可以應用的領(lǐng)域非常多,包括金融,醫(yī)療,教育,工業(yè),零售等?!皯撜f,AIGC未來的商業(yè)價值取決于它以何種方式去結(jié)合各個領(lǐng)域。以開域集團為例,除了在AIGC領(lǐng)域重金投入,我們還在新零售領(lǐng)域,空間數(shù)字化領(lǐng)域深度布局,未來,集團將通過在這些領(lǐng)域植入AIGC技術(shù),為客戶生成更高效和精細的數(shù)字化解決方案?!笔┵┓Q。
對于人類創(chuàng)作者的空間是否會受到AI擠壓,施侃從兩個角度發(fā)表了自己的看法?!暗谝?,隨著時代的發(fā)展,創(chuàng)作工具發(fā)生了變化。比如最早只能用毛筆作畫,后來發(fā)明了各種各樣的材料,再后來可以用繪畫板,這只是創(chuàng)作的生產(chǎn)方式發(fā)生了改變。但作品中蘊含的創(chuàng)意,思維,價值觀依然來源于人類。第二,藝術(shù)創(chuàng)作從來都離不開科技的輔助。施侃認為,現(xiàn)在藝術(shù)行業(yè)里有很多新材料、新技術(shù)、新工具被應用,這讓藝術(shù)的表現(xiàn)形式不再受限,創(chuàng)作空間只會越來越大。”施侃。
采寫:南都記者馬寧寧實習生葉羽潔

如若轉(zhuǎn)載,請注明出處:http://www.qjsdgw.cn/149404.html