跳到主要內容

當咒術成真 - 文字生成的虛擬世界

 



2024/02 

這幾天灌爆各大ai社群的,不外乎就是文字生成高清畫質影像的OpenAI Sora ,

讓人驚艷的細膩表現,自動化的場景生成與運鏡效果,縱使這個概念並不是多創新的模式,但Open AI始終很懂得抓住大家眼球  (Sora的各種生成影片:https://openai.com/sora )


關於Sora 的技術與介紹,不妨看看chatGPT 對它的描述:

OpenAI Sora文字-視訊生成模型

在視頻數據上進行大規模訓練生成模型,具體而言,OpenAI聯合訓練了文本條件擴散模型,處理不同持續時間、解析度和長寬比的視頻和圖像。利用了一種在視頻和圖像潛碼的時空塊上操作的轉換器架構。受到Srivastava等人(2015年)在使用LSTMs進行視頻表示學習的無監督學習的啟發,OpenAI的最大模型Sora擴展了這些概念,能夠生成一分鐘的高保真度視頻。此外,Chiappa等人(2017年)描述的循環環境模擬器方法與我們的方法論框架相一致,表明擴大視頻生成模型的規模是建立通用物理世界模擬器的一條有希望的道路。

一、技術創新

OpenAI 的 Sora 模型在技術創新上主要融合了 diffusion models 與 transformer models 的特點,這一結合代表著從文字描述到視覺內容生成的一大進步。根據 Goodfellow et al. (2014) 的研究,Generative Adversarial Nets (GANs) 開創了使用機器學習生成圖像的新方法,而 diffusion models 則透過逆向的擴散過程從隨機噪聲中逐步建構出有意義的圖像,提供了一種不同於傳統 GANs 的新途徑。另一方面,Vaswani et al. (2017) 提出的 transformer 模型,通過其自注意力機制有效處理長距離依賴關係,已廣泛應用於語言模型中。Sora 模型的創新之處在於將這兩種技術融合應用,實現了從簡單文本提示生成高質量視覺內容的能力,這不僅展示了機器學習技術的新高度,也為未來的影像生成、自然語言處理和人機交互開啟了新的可能性。

二、物理現象與現實世界的模擬

Sora 的另一大進步是在模擬現實世界物理現象方面的表現。雖然現有模型如 Raissi et al. (2019) 所提出的 Physics-Informed Neural Networks 已經在使用深度學習模擬物理事件方面取得了進展,但 Sora 在這一領域的應用展示了其獨特的能力。Sora 不僅能夠生成靜態圖像,還能夠模擬動態場景和物理互動,如光線的反射和折射,物體之間的相互作用等。這一能力不僅增強了模型對現實世界的理解和再現能力,也為如何進一步結合物理知識與深度學習模型提供了新的思路。然而,實現高度逼真的物理模擬仍然是一個挑戰,需要進一步的研究和創新。

三、文本與影像的無縫融合

在文本與影像的無縫融合方面,Sora 展現了其獨特的創新點。早期研究如 Johnson et al. (2018) 已經展示了從結構化的場景圖生成圖像的可能性,但 Sora 進一步將這一概念提升到新的層次。通過理解文本描述中的細節、情感和風格,Sora 能夠將這些文本元素轉化成具體的視覺內容。這一點不僅要求模型具備深入的語言理解能力,還需要將這些理解轉換成視覺上的細節和準確性,這對於跨領域的技術創新來說是一大步。這種融合不僅為自然語言處理和計算機視覺之間的交互提供了新的可能性,也為未來的創意內容創作提供了新的工具。

四、最新研究進展與未來方向

隨著深度學習和圖像生成領域的快速發展,Sora 模型的創新也在不斷進步。Ramesh et al. (2021) 的 DALL·E 以及其他相關研究,如 Cho et al. (2021) 的工作,為 Sora 提供了新的參考點和啟發。這些研究不僅推動了從文本到圖像的轉換技術的發展,也為 Sora 的未來改進和應用開闢了新途徑。此外,自然語言處理領域的進展,特別是 Brown et al. (2020) 的研究,為 Sora 提供了更強大的語言處理能力,這將使得 Sora 在理解和生成更複雜文本描述的圖像方面變得更加精確和高效。

五、安全性與倫理問題

隨著技術的發展,Sora 所面臨的安全性和倫理問題也日益重要。Russell et al. (2015) 強調了在人工智能發展中應該考慮的道德和安全問題。對於 Sora 而言,這意味著需要確保生成的內容不會被用於不當目的,如偽造或散布錯誤信息。這不僅需要制定嚴格的使用指南和倫理框架,還需要開發相應的技術來識別和預防濫用情況。此外,隨著技術的進一步發展,如何平衡創新與倫理,確保技術發展惠及社會,將是一個持續的挑戰。

參考文獻列表

  • 1. Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov. "Unsupervised learning of video representations using lstms." International conference on machine learning. PMLR, 2015.
  • 2. Chiappa, Silvia, et al. "Recurrent environment simulators." arXiv preprint arXiv:1704.02254 (2017).
  • 3. Ha, David, 和 Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).
  • 4. Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba. "Generating videos with scene dynamics." Advances in neural information processing systems 29 (2016).
  • 5. Tulyakov, Sergey, et al. "Mocogan: Decomposing motion and content for video generation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
  • 6. Ho, Jonathan, et al. "Imagen video: High definition video generation with diffusion models." arXiv preprint arXiv:2210.02303 (2022).
  • 7. Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
  • 8. Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020).
  • 9. Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).
  • 10. Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021.
  • 11. Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
  • 12. Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution." arXiv preprint arXiv:2307.06304 (2023).
  • 13. Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural information processing systems 33 (2020).
  • 14. Nichol, Alexander Quinn, 和 Prafulla Dhariwal. "Improved denoising diffusion probabilistic models." International Conference on Machine Learning. PMLR, 2021.
  • 15. Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021.
  • 16. Wu, Chenfei, et al. "Nüwa: Visual synthesis pre-training for neural visual world creation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.
  • 17. Gupta, Agrim, et al. "Photorealistic video generation with diffusion models." arXiv preprint arXiv:2312.06662 (2023).
  • 18. Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). "Generative Adversarial Nets." In Advances in Neural Information Processing Systems 27 (NIPS 2014).
  • 19. Johnson, J., Krishna, R., Stark, M., Li, L.-J., Shamma, D., Bernstein, M., & Fei-Fei, L. (2018). "Image Generation from Scene Graphs." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
  • 20. Raissi, M., Perdikaris, P., & Karniadakis, G. E. (2019). "Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations." Journal of Computational Physics, 378, 686-707.
  • 21. Russell, S., Dewey, D., & Tegmark, M. (2015). "Research Priorities for Robust and Beneficial Artificial Intelligence." AI Magazine, 36(4), 105-114.
  • 22. Cho, H., Lim, S., Choi, J., & Kim, J. (2021). "Revisiting Consistency Regularization for the Semantic Segmentation of High-Resolution Images." IEEE Transactions on Pattern Analysis and Machine Intelligence.
  • 23. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., & Amodei, D. (2020). "Language Models are Few-Shot Learners." In Advances in Neural Information Processing Systems 33 (NeurIPS 2020).

#openai #sora #ai #video #texttovideo #WaCare


PAN

2024/02/18

留言

這個網誌中的熱門文章

醫學健康跨領域合作的開始:資料工程

一直都很喜歡在會議上與跨領域的專家、醫師、學者分享我們在數據工程與分析應用上的發展經驗。 許多的專家學者,對於大數據應用的認知都仍侷限在一個超大型結構化資料集的子集合應用,在規劃好的條件設定下,針對特定的目標(疾病、行為)進行篩選,將數據narrow down到可以被個人電腦或是單一伺服器架構處理的小型資料集。 這樣的半手工處理方式,對於專一(Specific)領域主題的資料追蹤計算或許已經十分足夠,但當中倘若資料清理方式有改變、篩選條件增減,所有的數據都要從raw重新處理,不僅造成大量的時間與人力浪費,對於專案計畫進度的延宕更是麻煩。這些還不包含

別再期末談臨終

『在那六年多的時間,我常常反省、後悔、卻也培養勇氣,問自己再遇到時要做什麼決定?.......回想我要簽同意書的時候,真的會抖-我有資格決定人家生死嗎?』 面對死亡,我們都很害怕,更何況是家人的臨終。 但究竟我們的選擇,是為了給家人最後的尊嚴? 還是填補自己的罪惡感? 學習勇敢面對、學習放下, 更要學著為自己的未來做好規劃,不成為子女的負擔。 希望大家一起鼓勵這個勇敢的朋友, 因為她的經驗分享,讓我們更加了解, 面對家人臨終,我們該如何做好準備。 『末期才談臨終太遲』 https://www.wacare.live/health-forum/q/1984983840830?topicId=25049764537230&fbclid=IwAR1ei-zrfSj9w5kbvBW5ecSbqWrI408fJ1qjXhisZwLxYdbON_jJbNKMAyY 更多的失智照護課程 https://www.wahere.wapro.live/udnxwacare Pan 2020.12.22 #臨終 #失智 #善終 #放棄急救 #預立醫療 #病人自主

Google 資料庫方案–Spreadsheet–(1)資料呈現

HEMiDEMi 的標籤: Google , Google SpreadSheet , 雲端 早在規劃『 教育,意義! 』project時, 便有打算將整個網站建立過程撰寫一篇教學,讓有興趣以google 服務為基礎進行開發的朋友參考。 沒想到這個想法擺著就拖了好幾個月, 好在學生提出了問題,就趁這機會寫一寫吧。 基本上『 教育,意義! 』網站的架構完全建立在Google提供的服務, 廣義來說也是個雲端的系統, 所有的資料是分散在不同的服務架構下,再用GAE, Javascrript將服務資訊串接起來, 由Blogspot 統一呈現。 省了租主機的費用,或架站的硬體、電費, 最好的地方在於不用管理主機維運的問題, 只要專心做我的創意、嘗鮮就好了!!   多棒! 若將『 教育,意義! 』網站依功能層次來分類,可以分為三層結構, 當中的層次與使用技術大致如下: UI 介面層 服務 : Blogspot (網站介面) , Picasa (相簿空間), Google Apps 技術 : Javascript , AJAX ( JQuery ) App應用層  服務 : Google App Engine (GAE) 技術 : Java, Java Server Page (JSP) 資料層 服務 : Google Docs (文件), Google Spreadsheet (試算表) 技術/函式庫 : Java, Google Data APIs 本篇文章將著重在介紹以Google Spreadsheet 做為雲端資料庫, 其他主題將會陸續推出。 若對Google API 與 Google App Engine 初步建置有興趣, 可以參考之前文章: 佛心來著的 Google Data API – for JAVA 雲端的開始:Netbeans 無痛 Google App Engine Java 服務開發 Google Spreadsheet 做為資料庫系統 對於小型的資料系統來說, 採用Google Spreadsheet做為應用程式資料庫(如問卷調查或線上系統) 也算堪用, 目前的儲存限制為 : 40 萬個儲存格 每張工作表最多 256 欄 而Goog