Lok Shakti

Nationalism Always Empower People

एआई ट्रांसक्रिप्शन में खो गया: YouTube बच्चों के वीडियो में वयस्क शब्द रेंगते हैं

“समुद्र तट” कैसे “कुतिया” बन जाता है, “बस्टर” “कमीने” में बदल जाता है या “कॉम्बो” रूप “कंडोम” में बदल जाता है?

ऐसा तब होता है जब Google स्पीच-टू-टेक्स्ट और Amazon Transcribe, दोनों लोकप्रिय स्वचालित वाक् पहचान (ASR) सिस्टम, गलती से बच्चों के लिए YouTube वीडियो पर ऐसे आयु-अनुचित उपशीर्षक देते हैं।

यह ‘बीच टू बिच: यूट्यूब पर बच्चों की सामग्री का अनजाने में असुरक्षित ट्रांसक्रिप्शन’ नामक एक अध्ययन की प्रमुख खोज है, जिसमें 24 यूट्यूब चैनलों के 7,013 वीडियो शामिल हैं।

रोचेस्टर इंस्टीट्यूट ऑफ टेक्नोलॉजी के सॉफ्टवेयर इंजीनियरिंग विभाग में सहायक प्रोफेसर, यूएस-आधारित आशिक खुदाबुख्श कहते हैं, इनमें से दस प्रतिशत वीडियो में बच्चों के लिए कम से कम एक “अत्यधिक अनुचित वर्जित शब्द” था।

खुदाबुख्श, हैदराबाद में इंडियन स्कूल ऑफ बिजनेस के सहायक प्रोफेसर सुमीत कुमार और अध्ययन करने वाले मणिपाल विश्वविद्यालय के कृतिका रमेश ने इस घटना को “अनुचित सामग्री मतिभ्रम” करार दिया है।

“हम दिमाग में थे क्योंकि हम जानते थे कि इन चैनलों को लाखों बच्चे देखते हैं। हम समझते हैं कि यह एक महत्वपूर्ण समस्या है क्योंकि यह हमें बता रहा है कि अनुचित सामग्री स्रोत में मौजूद नहीं हो सकती है लेकिन इसे डाउनस्ट्रीम एआई (आर्टिफिशियल इंटेलिजेंस) एप्लिकेशन द्वारा पेश किया जा सकता है। इसलिए व्यापक दार्शनिक स्तर पर, लोगों के पास आम तौर पर स्रोत के लिए जाँच और संतुलन होता है, लेकिन अब हमें जाँच और संतुलन रखने के बारे में अधिक सतर्क रहना होगा यदि कोई AI अनुप्रयोग स्रोत को संशोधित करता है। यह अनजाने में अनुचित सामग्री पेश कर सकता है, ”खुदाबख्श, जिन्होंने मशीन लर्निंग में पीएचडी की है और पश्चिम बंगाल के कल्याणी से हैं, ने द संडे एक्सप्रेस को बताया।

अध्ययन के अनुसार, सेसम स्ट्रीट, रेयान वर्ल्ड, बार्बी, मूनबग किड और फन किड्स प्लैनेट सहित लाखों व्यूज और सब्सक्राइबर वाले चैनलों में अनुचित सामग्री मतिभ्रम पाया गया।

YouTube वीडियो पर बंद कैप्शन Google स्पीच-टू-टेक्स्ट द्वारा उत्पन्न होते हैं, जबकि Amazon Transcribe एक शीर्ष वाणिज्यिक ASR सिस्टम है। निर्माता अपने वीडियो में उपशीर्षक एम्बेड करने और फ़ाइल अपलोड करते समय उन्हें YouTube में आयात करने के लिए Amazon Transcribe का उपयोग कर सकते हैं।

फरवरी में वैंकूवर में एसोसिएशन फॉर द एडवांसमेंट ऑफ आर्टिफिशियल इंटेलिजेंस के 36 वें वार्षिक सम्मेलन में अध्ययन प्रस्तुत और स्वीकार किया गया था।

“ये पैटर्न हमें बताते हैं कि जब भी आपके पास एक मशीन भाषा मॉडल होता है जो किसी चीज़ की भविष्यवाणी करने की कोशिश करता है, तो भविष्यवाणियां इस बात से प्रभावित होती हैं कि यह किस तरह के डेटा पर प्रशिक्षित है। सबसे अधिक संभावना है कि उनके पास प्रशिक्षित डेटा में बच्चे के भाषण या बच्चे की बात के पर्याप्त उदाहरण नहीं हैं, “खुदाबख्श ने कहा।

अध्ययन से पता चलता है कि अधिकांश अंग्रेजी भाषा के उपशीर्षक YouTube Kids ऐप पर अक्षम हैं लेकिन वही वीडियो YouTube पर उपशीर्षक के साथ देखे जा सकते हैं।

“यह स्पष्ट नहीं है कि वीडियो देखते समय बच्चे कितनी बार केवल YouTube Kids ऐप तक ही सीमित रहते हैं और कितनी बार माता-पिता (या अभिभावक) उन्हें सामान्य YouTube से बच्चों की सामग्री देखने देते हैं। हमारे निष्कर्ष बच्चों की सुरक्षा के बारे में अधिक सतर्क रहने के लिए YouTube सामान्य और YouTube बच्चों के बीच कड़े एकीकरण की आवश्यकता को इंगित करते हैं, “अध्ययन में कहा गया है।

अपने स्वचालित कैप्शन की सटीकता के बारे में पूछे जाने पर, एक YouTube प्रवक्ता ने एक बयान में कहा: “YouTube Kids बच्चों के लिए समृद्ध और मनोरंजक सामग्री प्रदान करता है और 13 साल से कम उम्र के बच्चों के लिए हमारा अनुशंसित अनुभव है। YouTube Kids पर स्वचालित कैप्शन उपलब्ध नहीं हैं, हालांकि, हमारे हमारी मुख्य YouTube साइट पर कैप्शन टूल चैनलों को व्यापक दर्शकों तक पहुंचने और YouTube पर सभी के लिए पहुंच में सुधार करने की अनुमति देते हैं। हम स्वचालित कैप्शन को बेहतर बनाने और त्रुटियों को कम करने के लिए लगातार काम कर रहे हैं।”

लोकप्रिय वीडियो में से एक में गलत व्याख्या किए गए शब्द का एक और उदाहरण इस प्रकार है: “आपको पोर्न भी ढूंढना चाहिए।” वास्तविक संवाद “मकई” के साथ समाप्त हुआ।

खुदाबुख्श ने कहा कि ये त्रुटियां प्रशिक्षण के दौरान एएसआर सिस्टम को खिलाए गए डेटा के कारण हो सकती हैं। “देखें ‘आई लव पोर्न’ ‘आई लव कॉर्न’ की तुलना में अधिक संभावित वाक्य है जब दो वयस्कों के बीच बातचीत होती है। इन वयस्क शब्दों में से कुछ के प्रतिलेखन में आने का एक कारण यह है कि शायद एएसआर को वयस्कों से आने वाले भाषण उदाहरणों पर अधिक प्रशिक्षित किया जाता है, ”उन्होंने कहा।

खुदाबुख्श ने कहा कि ट्रांसक्रिप्शन प्रक्रिया में एक मानवीय तत्व का परिचय इन अनुचित शब्दों को लाखों युवा दर्शकों को प्रसारित होने से रोकने का एक तरीका हो सकता है। “ट्रांसक्रिप्शन त्रुटियों की जांच के लिए हमारे पास लूप में एक मानव हो सकता है। हम किसी को देख सकते हैं और मैन्युअल रूप से पुष्टि कर सकते हैं कि यह वीडियो में है या नहीं, ”उन्होंने कहा।

यह पहली बार नहीं है जब खुदाबुख्श एआई सिस्टम की खराबी को हरी झंडी दिखा रहे हैं। पिछले साल, उन्होंने और एक छात्र ने छह-सप्ताह का प्रयोग किया, जिसमें दिखाया गया कि ‘ब्लैक’, ‘व्हाइट’ और ‘अटैक’ जैसे शब्द – शतरंज पर टिप्पणी करने वालों के लिए सामान्य – संभवतः एक एआई सिस्टम को कुछ शतरंज वार्तालापों को नस्लवादी के रूप में फ़्लैग करने में मूर्ख बना सकते हैं। . यह एक लाख से अधिक ग्राहकों के साथ एक लोकप्रिय YouTube शतरंज चैनल, Agadmator के एक शतरंज प्रसारण के दौरान ‘सामुदायिक दिशानिर्देशों’ का पालन नहीं करने के लिए अवरुद्ध होने के कुछ ही समय बाद हुआ था।

खुदाबुख्श, जिन्होंने पिट्सबर्ग के कार्नेगी मेलन विश्वविद्यालय में यह शोध किया था, ने कहा था कि निष्कर्ष सोशल मीडिया कंपनियों के संभावित नुकसान के लिए एक आंख खोलने वाले थे, जो पूरी तरह से एआई पर निर्भर करते हुए घृणास्पद भाषण के स्रोतों को पहचानने और बंद करने के लिए थे।