“समुद्र तट” कैसे “कुतिया” बन जाता है, “बस्टर” “कमीने” में बदल जाता है या “कॉम्बो” रूप “कंडोम” में बदल जाता है?
ऐसा तब होता है जब Google स्पीच-टू-टेक्स्ट और Amazon Transcribe, दोनों लोकप्रिय स्वचालित वाक् पहचान (ASR) सिस्टम, गलती से बच्चों के लिए YouTube वीडियो पर ऐसे आयु-अनुचित उपशीर्षक देते हैं।
यह ‘बीच टू बिच: यूट्यूब पर बच्चों की सामग्री का अनजाने में असुरक्षित ट्रांसक्रिप्शन’ नामक एक अध्ययन की प्रमुख खोज है, जिसमें 24 यूट्यूब चैनलों के 7,013 वीडियो शामिल हैं।
रोचेस्टर इंस्टीट्यूट ऑफ टेक्नोलॉजी के सॉफ्टवेयर इंजीनियरिंग विभाग में सहायक प्रोफेसर, यूएस-आधारित आशिक खुदाबुख्श कहते हैं, इनमें से दस प्रतिशत वीडियो में बच्चों के लिए कम से कम एक “अत्यधिक अनुचित वर्जित शब्द” था।
खुदाबुख्श, हैदराबाद में इंडियन स्कूल ऑफ बिजनेस के सहायक प्रोफेसर सुमीत कुमार और अध्ययन करने वाले मणिपाल विश्वविद्यालय के कृतिका रमेश ने इस घटना को “अनुचित सामग्री मतिभ्रम” करार दिया है।
“हम दिमाग में थे क्योंकि हम जानते थे कि इन चैनलों को लाखों बच्चे देखते हैं। हम समझते हैं कि यह एक महत्वपूर्ण समस्या है क्योंकि यह हमें बता रहा है कि अनुचित सामग्री स्रोत में मौजूद नहीं हो सकती है लेकिन इसे डाउनस्ट्रीम एआई (आर्टिफिशियल इंटेलिजेंस) एप्लिकेशन द्वारा पेश किया जा सकता है। इसलिए व्यापक दार्शनिक स्तर पर, लोगों के पास आम तौर पर स्रोत के लिए जाँच और संतुलन होता है, लेकिन अब हमें जाँच और संतुलन रखने के बारे में अधिक सतर्क रहना होगा यदि कोई AI अनुप्रयोग स्रोत को संशोधित करता है। यह अनजाने में अनुचित सामग्री पेश कर सकता है, ”खुदाबख्श, जिन्होंने मशीन लर्निंग में पीएचडी की है और पश्चिम बंगाल के कल्याणी से हैं, ने द संडे एक्सप्रेस को बताया।
अध्ययन के अनुसार, सेसम स्ट्रीट, रेयान वर्ल्ड, बार्बी, मूनबग किड और फन किड्स प्लैनेट सहित लाखों व्यूज और सब्सक्राइबर वाले चैनलों में अनुचित सामग्री मतिभ्रम पाया गया।
YouTube वीडियो पर बंद कैप्शन Google स्पीच-टू-टेक्स्ट द्वारा उत्पन्न होते हैं, जबकि Amazon Transcribe एक शीर्ष वाणिज्यिक ASR सिस्टम है। निर्माता अपने वीडियो में उपशीर्षक एम्बेड करने और फ़ाइल अपलोड करते समय उन्हें YouTube में आयात करने के लिए Amazon Transcribe का उपयोग कर सकते हैं।
फरवरी में वैंकूवर में एसोसिएशन फॉर द एडवांसमेंट ऑफ आर्टिफिशियल इंटेलिजेंस के 36 वें वार्षिक सम्मेलन में अध्ययन प्रस्तुत और स्वीकार किया गया था।
“ये पैटर्न हमें बताते हैं कि जब भी आपके पास एक मशीन भाषा मॉडल होता है जो किसी चीज़ की भविष्यवाणी करने की कोशिश करता है, तो भविष्यवाणियां इस बात से प्रभावित होती हैं कि यह किस तरह के डेटा पर प्रशिक्षित है। सबसे अधिक संभावना है कि उनके पास प्रशिक्षित डेटा में बच्चे के भाषण या बच्चे की बात के पर्याप्त उदाहरण नहीं हैं, “खुदाबख्श ने कहा।
अध्ययन से पता चलता है कि अधिकांश अंग्रेजी भाषा के उपशीर्षक YouTube Kids ऐप पर अक्षम हैं लेकिन वही वीडियो YouTube पर उपशीर्षक के साथ देखे जा सकते हैं।
“यह स्पष्ट नहीं है कि वीडियो देखते समय बच्चे कितनी बार केवल YouTube Kids ऐप तक ही सीमित रहते हैं और कितनी बार माता-पिता (या अभिभावक) उन्हें सामान्य YouTube से बच्चों की सामग्री देखने देते हैं। हमारे निष्कर्ष बच्चों की सुरक्षा के बारे में अधिक सतर्क रहने के लिए YouTube सामान्य और YouTube बच्चों के बीच कड़े एकीकरण की आवश्यकता को इंगित करते हैं, “अध्ययन में कहा गया है।
अपने स्वचालित कैप्शन की सटीकता के बारे में पूछे जाने पर, एक YouTube प्रवक्ता ने एक बयान में कहा: “YouTube Kids बच्चों के लिए समृद्ध और मनोरंजक सामग्री प्रदान करता है और 13 साल से कम उम्र के बच्चों के लिए हमारा अनुशंसित अनुभव है। YouTube Kids पर स्वचालित कैप्शन उपलब्ध नहीं हैं, हालांकि, हमारे हमारी मुख्य YouTube साइट पर कैप्शन टूल चैनलों को व्यापक दर्शकों तक पहुंचने और YouTube पर सभी के लिए पहुंच में सुधार करने की अनुमति देते हैं। हम स्वचालित कैप्शन को बेहतर बनाने और त्रुटियों को कम करने के लिए लगातार काम कर रहे हैं।”
लोकप्रिय वीडियो में से एक में गलत व्याख्या किए गए शब्द का एक और उदाहरण इस प्रकार है: “आपको पोर्न भी ढूंढना चाहिए।” वास्तविक संवाद “मकई” के साथ समाप्त हुआ।
खुदाबुख्श ने कहा कि ये त्रुटियां प्रशिक्षण के दौरान एएसआर सिस्टम को खिलाए गए डेटा के कारण हो सकती हैं। “देखें ‘आई लव पोर्न’ ‘आई लव कॉर्न’ की तुलना में अधिक संभावित वाक्य है जब दो वयस्कों के बीच बातचीत होती है। इन वयस्क शब्दों में से कुछ के प्रतिलेखन में आने का एक कारण यह है कि शायद एएसआर को वयस्कों से आने वाले भाषण उदाहरणों पर अधिक प्रशिक्षित किया जाता है, ”उन्होंने कहा।
खुदाबुख्श ने कहा कि ट्रांसक्रिप्शन प्रक्रिया में एक मानवीय तत्व का परिचय इन अनुचित शब्दों को लाखों युवा दर्शकों को प्रसारित होने से रोकने का एक तरीका हो सकता है। “ट्रांसक्रिप्शन त्रुटियों की जांच के लिए हमारे पास लूप में एक मानव हो सकता है। हम किसी को देख सकते हैं और मैन्युअल रूप से पुष्टि कर सकते हैं कि यह वीडियो में है या नहीं, ”उन्होंने कहा।
यह पहली बार नहीं है जब खुदाबुख्श एआई सिस्टम की खराबी को हरी झंडी दिखा रहे हैं। पिछले साल, उन्होंने और एक छात्र ने छह-सप्ताह का प्रयोग किया, जिसमें दिखाया गया कि ‘ब्लैक’, ‘व्हाइट’ और ‘अटैक’ जैसे शब्द – शतरंज पर टिप्पणी करने वालों के लिए सामान्य – संभवतः एक एआई सिस्टम को कुछ शतरंज वार्तालापों को नस्लवादी के रूप में फ़्लैग करने में मूर्ख बना सकते हैं। . यह एक लाख से अधिक ग्राहकों के साथ एक लोकप्रिय YouTube शतरंज चैनल, Agadmator के एक शतरंज प्रसारण के दौरान ‘सामुदायिक दिशानिर्देशों’ का पालन नहीं करने के लिए अवरुद्ध होने के कुछ ही समय बाद हुआ था।
खुदाबुख्श, जिन्होंने पिट्सबर्ग के कार्नेगी मेलन विश्वविद्यालय में यह शोध किया था, ने कहा था कि निष्कर्ष सोशल मीडिया कंपनियों के संभावित नुकसान के लिए एक आंख खोलने वाले थे, जो पूरी तरह से एआई पर निर्भर करते हुए घृणास्पद भाषण के स्रोतों को पहचानने और बंद करने के लिए थे।
More Stories
Realme GT 7 Pro Review: Delivering some heavy blows, way above its weight class Firstpost
एआई पेशकशों पर जोर देने के लिए ज़ूम ने नाम बदला, बिक्री का पूर्वानुमान दिया
Amazon Deal: iPhone 15 पर डायमंड का सुनहरा मौका, 18,000 तक की छूट पर पाएं ये आसान काम