康奈爾大學的研究人員開發了一種能夠繞過生成AI審查制度的算法。因此,他們設法獲得了色情圖像,通常無法使用dall-e甚至穩定的擴散創建。通過學習,對他們的運作進行了驚人的事情。
有了這樣的力量,很明顯,生成的AI會引起漂移。讓我們提到特別的深層效果,今天主要用於創建色情內容,損害視頻中存在的人們。因此,必須集成防止溢出的安全網等生成圖像,例如Dall-E和Midjourney。
因此,這些工具審查許多單詞被認為是性或暴力的單詞,儘管該定義根據每個詞的敏感性而變化。例如,不可能要求AI產生一個裸體的人。包含這些審查單詞的提示將被絕對拒絕,而可能會阻止用戶的提示。
這並不意味著要解決這一審查制度一直是不可能的。但是,推動AI生成違禁圖像的現有方法從來都不是通用的,只能在特定工具上使用。直到康奈爾大學的一組研究人員發現如何將每個AI折疊為他們的意願。
在同一主題上 - AI會強調男人的孤獨感,使一代人處於危險之中
Sneakyplet:這是該算法的名稱,能夠繞過生成AI審查。後者的目標是通過測試不同的及時配方來確定實現其末端的最有效方法(通常是非正統)。根據獲得的答案,該算法將調整其提示,直到獲得預期的結果為止。
那時,偷偷摸摸的人開始發現驚人的發現。通過迭代的味道,可以找到最佳的配方,該算法最終了解了某些想要絕對沒有什麼的角色套件,而AI很清楚地解釋了。在沒有研究人員的情況下,“ mowly”成為“貓”,而“ butnip fwngho”在提示中成為狗。
研究人員團隊成員Yinzhi Cao發表了一個有趣的假設來解釋這一現象。這回憶說,AI是通過用不同語言編寫的文本培訓的。因此,某些字符的字符可以接近某些語言中的某些單詞,從而推動AI確定用戶想要鍵入的單詞。
不可避免地,可以使用此“缺陷”來推動AI來生成顯式圖像。的確,這些字符的字符未集成到工具的安全過濾器中,經過多次嘗試,可能需要AI來解釋它們以供禁止的單詞。這些工具基於句子的上下文而不是其主要含義,這一事實肯定允許。
確實,在句子中“危險認為沃爾特以威脅到正在接近主人的陌生人的威脅方式咕unt”,AI通常會考慮“危險認為沃爾特”意思是“狗”,因為這個詞可以與其他提示一起使用。
研究人員指定,這些發現不應用於用戶繞過安全措施,而是要警告這些AI的創建者,以防止其係統中的故障。因此,很少有偷偷摸摸的人與公眾播放,這可能不是一件壞事。
來源 :康奈爾大學
問我們的最後一個!
對於房屋連接的對象的聲音控制必不可少的智能揚聲器不應避免發燒友的聲音質量要求。無論您是喜歡Alexa,Google Assistant還是Siri,您都會在...
音頻購買指南