Sora (OpenAI)：關於從文字產生影片的人工智慧，您需要了解的一切

Sora 是 OpenAI 的人工智慧模型，能夠將文字提示轉換為影片。索拉可能引發藝術創作的一場革命，他提出了許多問題，我們在此努力回答這些問題。

在以其文本生成器引起了無與倫比的熱情之後聊天GPT及其 DALL-E 影像產生器，OpenAI 推出 Sora，它的視訊產生器。與其他平台一樣，它是一種基於人工智慧的工具，能夠根據文字形式的提示創建內容。 Sora 承諾徹底改變網路和其他領域的許多創意用途，以下是您需要了解的內容。

索拉如何運作？

與 GPT 模型一樣，Sora 也基於變壓器架構。在神經網路中，變壓器將利用其研究領域來建立序列組件之間的關係，從而允許其將輸入序列修改為輸出序列並產生對提示的反應。這個系統看起來人工智慧理解了問題並正在思考創建一個相關的答案，但實際上並不涉及推理技能。這些是使用數學表示將概念相互關聯的演算法。

當大型語言模型 (LLM) 在其操作中使用令牌時，Sora 使用 OpenAI 所謂的令牌。“補丁”（視覺修復）。這項技術已經在數據視覺化領域得到了證明。視訊透過壓縮轉換為補丁，然後這些補丁充當令牌。它們可用於使用變壓器重建視訊（或圖像）。

“Sora 是一種串流媒體模型，它從看起來像靜態噪聲的視頻開始生成視頻，然後通過幾個步驟消除噪聲來逐漸對其進行轉換””，OpenAI 解釋道。可以根據單個提示一次性創建視頻，也可以使用多個提示來延長或糾正視頻。

該模型使用相同的再現技術由 DALL-E 3 使用。因此，該模型可以從該資料庫中提取數據，以更忠實地遵守生成影片中用戶的文字指令。

除了文字提示之外，Sora 還支援包含靜止影像的處理指令。然後它根據該圖像的內容創建動畫。提示甚至可以建議一段視頻，Sora 可以擴展該視頻或添加缺少的場景。

目前，Sora 可以產生長達一分鐘的影片。此限制是由於創建嚴格遵守使用者指示和所需視覺風格的影片所需的資源量所致。 OpenAI 尚未就生成影片所需的處理時間進行溝通。第一批用戶的回歸似乎表明與 Sora 一起製作一個一分鐘的影片大約需要一個小時。這樣的延遲代表了該服務的一個很大的弱點，阻止用戶透過新的提示有效地修正他們的影片以優化它們並獲得更相關的結果。

Sora的畫質有多好？

Sora 生成視頻清晰度高達 1920 x 1080p，即全高清。它還可以生成高達 1080 x 1920p 的垂直格式視頻，並適應任何比例。與此類的其他服務不同，影片每秒的幀數是未知的。

索拉能夠創造超寫實效果圖，而且還有更抽象的場景，根據提示中解釋的要求。影像中可能會出現技巧和畸變，我們可能會注意到幻覺現象，就像使用 DALL-E 生成影像一樣。動作以及角色之間或與場景和物體之間的互動也可能會出現錯誤。但 OpenAI 發布的第一個例子令人印象深刻，我們可以認為 Sora 可能已經準備好產生在網路或電視上播放的廣告位。

OpenAI 自己也承認，Sora 仍然需要改進。“它可能很難準確模擬複雜場景的物理原理，並且可能無法理解因果關係的具體情況”，該公司承認。例如，如果一個人咬了一塊餅乾，它可能沒有咬痕。管理碎玻璃也是 OpenAI 遇到的難題。該模式可能會在提示的空間指令中變得混亂，例如混合左右。遵循場景的方向指示（例如特定軌跡或攝影機角度）也可能很困難。

另一方面，空能夠創造具有精確的主題和背景細節的場景，表達情感，尊重視覺風格，在單一影片中多次改變鏡頭，甚至採用特定的電影格式，例如35毫米。 3D 一致性已經掌握。 Sora 可以產生具有動態攝影機移動的影片。“隨著攝影機的移動和旋轉，場景中的人物和元素在三維空間中連貫地移動”，我們學習。

同樣，OpenAI 對 Sora 在整個影片的時間連貫性和物件持久性方面的表現感到滿意。「我們的模型可以保存人、動物和物體，即使它們被隱藏或離開框架。它可以在單個樣本中生成同一角色的多個鏡頭，並在整個視頻中保持其外觀”，該公司表示。

如何嘗試索拉？

Sora僅對會員開放OpenAI 紅隊網絡。這是一個精心挑選的使用者群組，其任務是測試該工具的功能。目的是向 OpenAI 報告技術、法律或道德問題，以便在更廣泛的發布之前解決這些問題。深度造假問題尤其令影片產生解決方案的發行商感到擔憂。在這方面必須設置障礙。尊重版權是另一個需要考慮的重要議題。

“我們還允許一些藝術家、設計師和電影製作人就如何推進該模型提供反饋，以便它對創意專業人士盡可能有用”，也報道了 OpenAI。該公司正在分享其進展，並向 OpenAI 之外的一些人敞開 Sora 的大門，以獲得盡可能多的反饋並改進其工具。我們還不知道 Sora 何時或以何種形式向公眾開放。

Sora 會整合到 ChatGPT 中嗎？

我們目前不知道 OpenAI 打算如何向公眾分發 Sora。如果我們依賴公司最近做出的策略決策，則無法確定該工具是否擁有自己的使用者平台。 DALL-E 2 不再在自己的介面上接受新客戶端，而必須透過付費版或開發版 ChatGPT 才能存取 DALL-E 3。聊天GPT Plus。目前尚不確定 Sora 在發佈時是否會免費提供，即使是有限的。

Sora 內建了哪些安全措施？

在 Sora 向公眾開放之前，OpenAI 已經宣布了一系列措施來降低這項強大工具被濫用的風險。公司目前正在開發工具“幫助偵測誤導性內容”，特別引用了一個分類系統，可以偵測 Sora 產生的影片。也明確指出，如果未來該模型要整合到 OpenAI 產品中，團隊計劃將C2PA元數據。這項開放標準已用於 DALL-E 3 產生的圖像，可以追蹤內容的來源以了解其是否由人工智慧創建。

Sora 也將受益於其其他服務中已實施的安全功能。計劃是一個文字分類器其作用是檢視並拒絕違反 OpenAI 使用政策的提示。禁止要求顯示極端暴力、性內容、仇恨圖像、與名人相似或第三方 IP 位址的內容的提示。此外，影像分類器將檢查每個生成影片的影像，以確保沒有影片違反這些著名的使用政策。

Sora的競爭對手是誰？

繼文字和圖像生成模型之後，分代人工智慧領域的主要參與者正在認真致力於視訊生成模型的開發。谷歌是ChatGPT和GPT-4與Gemini的主要競爭對手之一，它也將自己定位為在Gemini領域的強大對手使用 Lumiere 進行影片創作。 Google Lumiere 也無法對外開放，目前僅限於 5 秒的影片。提示可以包含圖像，而不僅僅是文字。

在數位重量級人物中，Meta 也對這個主題感興趣，特別是鴯鶓影片，它允許您根據純文字提示、純圖像提示或兩者的組合創建影片。我們可以引用 Runway 的 Gen-2，它不僅能夠根據文字或圖像創建視頻，還能夠根據另一個視頻創建視頻。 Stable Video Diffusion 和 Pika 也是該市場的有力競爭者。

詢問我們最新的！