數十年前,《哆啦A夢》漫畫裡那個根據既定風格生成新故事的神奇裝置,豐富了讀者的各種想像。如今,當代的生成式AI(Generative Artificial Intelligence)技術,特別在自然語言處理(Natural Language Processing, NLP)及生成對抗網絡(Generative Adversarial Networks, GANs)的應用上,讓過去的想像變成了現實,它精確地捕捉並模仿特定的藝術風格與敘事結構,模擬出新的情境與符合原作風格的故事。 這樣的技術發展不僅展示AI在創意和內容創造方面的潛力,也對文學、藝術以及媒體產業(Media Industry)的未來進程提出了挑戰與啟示,讓我們得以重新思考原創性(Originality)、版權(Copyright)以及創作倫理(Creative Ethics)的界限,同時也為創作開闢了新天地。 站在資料科學的前沿,這不僅是一場技術革命,更是一次文化和社會結構的深刻反思,技術的躍進是人類不懈追求夢想、將想像轉化為現實的生動寫照。我們將昨日不可及的幻想,一一實現於今日,這不僅展現科技的力量,更體現我們對夢想的堅持與熱情,對人類創造精神(Creative Spirit)和想像力(Imagination)的賦予,見證我們不斷推進的界限,以及將夢想化為現實的無窮可能性。 PAN, ChatGPT 4.0, Midjourney 的共同創作 image prompt : a cartoon comic strip with a cartoon character and a cartoon character by Tezuka Osamu , pixiv, process art, Astro Boy, doraemon , Imagine a vibrant and engaging comic strip that embodies the nostalgic essence of classic manga --v 5.0 - #asieslavida #asieslavidatec #ai #nlp #gans #doraemon #manga #tezukaosamu
2024/02 這幾天灌爆各大ai社群的,不外乎就是文字生成高清畫質影像的OpenAI Sora , 讓人驚艷的細膩表現,自動化的場景生成與運鏡效果,縱使這個概念並不是多創新的模式,但Open AI始終很懂得抓住大家眼球 (Sora的各種生成影片: https://openai.com/sora ) 關於Sora 的技術與介紹,不妨看看chatGPT 對它的描述: OpenAI Sora文字-視訊生成模型 在視頻數據上進行大規模訓練生成模型,具體而言,OpenAI聯合訓練了文本條件擴散模型,處理不同持續時間、解析度和長寬比的視頻和圖像。利用了一種在視頻和圖像潛碼的時空塊上操作的轉換器架構。受到Srivastava等人(2015年)在使用LSTMs進行視頻表示學習的無監督學習的啟發,OpenAI的最大模型Sora擴展了這些概念,能夠生成一分鐘的高保真度視頻。此外,Chiappa等人(2017年)描述的循環環境模擬器方法與我們的方法論框架相一致,表明擴大視頻生成模型的規模是建立通用物理世界模擬器的一條有希望的道路。 一、技術創新 OpenAI 的 Sora 模型在技術創新上主要融合了 diffusion models 與 transformer models 的特點,這一結合代表著從文字描述到視覺內容生成的一大進步。根據 Goodfellow et al. (2014) 的研究,Generative Adversarial Nets (GANs) 開創了使用機器學習生成圖像的新方法,而 diffusion models 則透過逆向的擴散過程從隨機噪聲中逐步建構出有意義的圖像,提供了一種不同於傳統 GANs 的新途徑。另一方面,Vaswani et al. (2017) 提出的 transformer 模型,通過其自注意力機制有效處理長距離依賴關係,已廣泛應用於語言模型中。Sora 模型的創新之處在於將這兩種技術融合應用,實現了從簡單文本提示生成高質量視覺內容的能力,這不僅展示了機器學習技術的新高度,也為未來的影像生成、自然語言處理和人機交互開啟了新的可能性。 二、物理現象與現實世界的模擬 Sora 的另一大進步是在模擬現實世界物理現象方面的表現。雖然現有模型如 Raissi et al. (2019) 所提出的 Physics-Informed Neural