Lok Shakti

Nationalism Always Empower People

Google का इमेजेन AI टेक्स्ट के आधार पर कला बना रहा है, लेकिन इसकी सीमाएँ हैं

कल्पना कीजिए “पृष्ठभूमि में एफिल टॉवर के साथ एक रोबोट युगल बढ़िया भोजन”? हम मनुष्यों के लिए, हमारे दिमाग में इसे चित्रित करना बहुत आसान है। बेशक, हमारे बीच जितने अधिक रचनात्मक लोग इन शब्दों को अपनी कलाकृति में आसानी से जीवंत कर सकते हैं। और अब Google का AI मॉडल जिसे इमेजन कहा जाता है, कुछ ऐसा ही करने में सक्षम है। एक नई घोषणा में, Google ने दिखाया है कि इमेजन, जो एक टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल है, लिखित टेक्स्ट के आधार पर इमेज बनाने में सक्षम है।

हालांकि सबसे उल्लेखनीय हिस्सा चित्रों में देखी गई सटीकता और फोटोरिअलिज़्म है, जो सभी इन मॉडलों द्वारा बनाए गए हैं। Google ने इमेजेन द्वारा बनाई गई कई कलाकृतियां प्रदर्शित की हैं, जो विचाराधीन वाक्य को सटीक रूप से दर्शाती हैं। उदाहरण के लिए, बांस से बना एक Android शुभंकर है। एक अन्य गुस्से में पक्षी दिखाता है। एक और एक जंगल में गुस्से में कछुए के साथ बहस करते हुए एक सुनहरी चोंच के साथ क्रोम-प्लेटेड बतख दिखाता है।

नीचे दी गई कुछ कलाकृति देखें

पृष्ठभूमि में एफिल टॉवर के साथ एक रोबोट युगल बढ़िया भोजन करता है। वास्तव में क्रोधित पक्षी। बांस से बना एक Android शुभंकर। एक जंगल में गुस्से में कछुए के साथ बहस करते हुए एक सुनहरी चोंच के साथ क्रोम प्लेटेड बतख।

Google का कहना है कि इमेजन अपने “बड़े ट्रांसफॉर्मर भाषा मॉडल” पर आधारित है जो एआई को टेक्स्ट को समझने में मदद करता है। इमेजेन ने Google शोधकर्ताओं को एक और महत्वपूर्ण खोज करने में भी मदद की है, कि सामान्य बड़े भाषा मॉडल “छवि संश्लेषण के लिए एन्कोडिंग टेक्स्ट में आश्चर्यजनक रूप से प्रभावी हैं।”

हालाँकि, कंपनी नोट करती है कि इसकी सीमाएँ हैं, जिसमें “व्यापक रूप से टेक्स्ट-टू-इमेज अनुसंधान का सामना करने वाली कई नैतिक चुनौतियाँ” शामिल हैं। यह मानता है कि यह “समाज को जटिल तरीकों से” प्रभावित कर सकता है, और ऐसे मॉडलों के दुरुपयोग का जोखिम है। यही कारण है कि यह अभी कोड या सार्वजनिक डेमो जारी नहीं कर रहा है।

Google का ब्लॉग नोट करता है “टेक्स्ट-टू-इमेज मॉडल की डेटा आवश्यकताओं ने शोधकर्ताओं को बड़े, ज्यादातर बिना सोचे-समझे, वेब-स्क्रैप किए गए डेटासेट पर बहुत अधिक भरोसा करने के लिए प्रेरित किया है”। इस तरह के डेटासेट के साथ समस्या यह है कि वे अक्सर “सामाजिक रूढ़िवादिता, दमनकारी दृष्टिकोण, और अपमानजनक, या अन्यथा हानिकारक, हाशिए पर पहचान समूहों के संघों को दर्शाते हैं,” ब्लॉग के अनुसार।

पोस्ट में कहा गया है कि “हमारे प्रशिक्षण डेटा का एक सबसेट शोर और अवांछनीय सामग्री, जैसे कि अश्लील इमेजरी और जहरीली भाषा को हटाने के लिए फ़िल्टर किया गया था,”। लेकिन Google द्वारा उपयोग किया जाने वाला डेटासेट, जो कि LAION-400M है, जिसे “अश्लील इमेजरी, नस्लवादी गालियों और हानिकारक सामाजिक रूढ़ियों सहित अनुचित सामग्री की एक विस्तृत श्रृंखला के लिए जाना जाता है,” कंपनी नोट करती है।

Google स्वीकार करता है कि “एक जोखिम है कि इमेजेन ने हानिकारक रूढ़ियों और अभ्यावेदन को एन्कोड किया है, जो बिना किसी सुरक्षा उपायों के सार्वजनिक उपयोग के लिए इमेजेन को जारी नहीं करने के हमारे निर्णय का मार्गदर्शन करता है।”

अंत में, इमेजन अभी भी बहुत सीमित है जब लोगों को चित्रित करने वाली कला उत्पन्न करने की बात आती है, और यह ज्यादातर रूढ़िवादी परिणाम दे रही है। Google का कहना है कि इसमें “सामाजिक पूर्वाग्रह और रूढ़िवादिता है, जिसमें हल्के त्वचा वाले लोगों की छवियों को उत्पन्न करने की दिशा में एक समग्र पूर्वाग्रह शामिल है।” इसके अलावा, जब विभिन्न व्यवसायों को चित्रित करने के लिए कहा जाता है, तो पश्चिमी लिंग रूढ़ियों को प्रदर्शित करने की प्राथमिकता होती है।