Google शोधकर्ताओं ने पिछले सप्ताह एक नई कृत्रिम बुद्धिमत्ता (एआई) वास्तुकला का अनावरण किया जो घटनाओं और विषयों के दीर्घकालिक संदर्भ को याद रखने के लिए बड़े भाषा मॉडल (एलएलएम) को सक्षम कर सकता है। इस विषय पर माउंटेन व्यू-आधारित तकनीकी दिग्गज द्वारा एक पेपर प्रकाशित किया गया था, और शोधकर्ताओं का दावा है कि इस वास्तुकला का उपयोग करके प्रशिक्षित एआई मॉडल ने अधिक “मानव-जैसी” मेमोरी प्रतिधारण क्षमता प्रदर्शित की है। विशेष रूप से, Google ने एआई मॉडल को प्रासंगिक जानकारी को याद रखने का तरीका सिखाने के लिए एक नई विधि विकसित करने के लिए पारंपरिक ट्रांसफार्मर और रिकरंट न्यूरल नेटवर्क (आरएनएन) आर्किटेक्चर को छोड़ दिया।
टाइटन्स एआई मॉडल की संदर्भ विंडो को 2 मिलियन से अधिक टोकन तक बढ़ा सकते हैं
परियोजना के प्रमुख शोधकर्ता, अली बेहरोज़, की तैनाती एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर नए आर्किटेक्चर के बारे में। उन्होंने दावा किया कि नया आर्किटेक्चर ध्यान के साथ एक मेटा-इन-संदर्भ मेमोरी प्रदान करता है जो एआई मॉडल को परीक्षण-समय गणना में जानकारी को याद रखना सिखाता है।
गूगल के पेपर के मुताबिक, जो रहा है प्रकाशित प्री-प्रिंट ऑनलाइन जर्नल arXiv में, टाइटन्स आर्किटेक्चर एआई मॉडल की संदर्भ विंडो को दो मिलियन से अधिक टोकन तक बढ़ा सकता है। एआई डेवलपर्स के लिए मेमोरी को हल करना एक मुश्किल समस्या रही है।
मनुष्य जानकारी और घटनाओं को संदर्भ के साथ याद रखता है। यदि कोई किसी व्यक्ति से पूछता है कि उसने पिछले सप्ताहांत में क्या पहना था, तो वे अतिरिक्त प्रासंगिक जानकारी याद रख पाएंगे, जैसे कि किसी ऐसे व्यक्ति की जन्मदिन की पार्टी में भाग लेना जिसे वे पिछले 12 वर्षों से जानते हैं। इस तरह, जब अनुवर्ती पूछा जाता है इस सवाल पर कि उन्होंने पिछले सप्ताहांत भूरे रंग की जैकेट और डेनिम जींस क्यों पहनी थी, व्यक्ति इन सभी अल्पकालिक और दीर्घकालिक जानकारी के साथ इसे प्रासंगिक बनाने में सक्षम होगा।
दूसरी ओर, एआई मॉडल, आमतौर पर ट्रांसफार्मर और आरएनएन आर्किटेक्चर के लिए संशोधित पुनर्प्राप्ति-संवर्धित पीढ़ी (आरएजी) सिस्टम का उपयोग करते हैं। यह सूचना को तंत्रिका नोड्स के रूप में उपयोग करता है। इसलिए, जब एआई मॉडल से कोई प्रश्न पूछा जाता है, तो यह उस विशेष नोड तक पहुंचता है जिसमें मुख्य जानकारी होती है, साथ ही आस-पास के नोड्स जिनमें अतिरिक्त या संबंधित जानकारी हो सकती है। हालाँकि, एक बार क्वेरी हल हो जाने के बाद, प्रोसेसिंग पावर बचाने के लिए जानकारी को सिस्टम से हटा दिया जाता है।
हालाँकि, इसके दो नकारात्मक पहलू हैं। सबसे पहले, एक AI मॉडल लंबे समय तक जानकारी को याद नहीं रख सकता है। यदि कोई सत्र समाप्त होने के बाद अनुवर्ती प्रश्न पूछना चाहता है, तो उसे फिर से पूरा संदर्भ प्रदान करना होगा (मनुष्यों के कार्य करने के तरीके के विपरीत)। दूसरा, एआई मॉडल दीर्घकालिक संदर्भ से जुड़ी जानकारी प्राप्त करने का खराब काम करते हैं।
टाइटन्स एआई के साथ, बेहरोज़ और अन्य Google शोधकर्ताओं ने एक आर्किटेक्चर बनाने की कोशिश की जो एआई मॉडल को एक दीर्घकालिक मेमोरी विकसित करने में सक्षम बनाता है जिसे लगातार चलाया जा सकता है, जबकि जानकारी भूल जाती है ताकि इसे कम्प्यूटेशनल रूप से अनुकूलित किया जा सके।
इस प्रयोजन के लिए, शोधकर्ताओं ने एक आर्किटेक्चर डिज़ाइन किया जो इतिहास को तंत्रिका नेटवर्क के मापदंडों में एन्कोड करता है। तीन प्रकारों का उपयोग किया गया – मेमोरी ऐज़ कॉन्टेक्स्ट (MAC), मेमोरी ऐज़ गेटिंग (MAG), और मेमोरी ऐज़ ए लेयर (MAL)। इनमें से प्रत्येक प्रकार विशेष कार्यों के लिए उपयुक्त है।
इसके अतिरिक्त, टाइटन्स एक नई आश्चर्य-आधारित शिक्षण प्रणाली का उपयोग करता है, जो एआई मॉडल को किसी विषय के बारे में अप्रत्याशित या महत्वपूर्ण जानकारी को याद रखने के लिए कहता है। ये दो परिवर्तन टाइटन्स आर्किटेक्चर को एलएलएम में बेहतर मेमोरी फ़ंक्शन प्रदर्शित करने की अनुमति देते हैं।
BABILong बेंचमार्क में, टाइटन्स (MAC) उत्कृष्ट प्रदर्शन दिखाता है, जहां यह प्रभावी रूप से 2M संदर्भ विंडो से बड़ा होता है, GPT-4, Llama3 + RAG और Llama3-70B जैसे बड़े मॉडलों से बेहतर प्रदर्शन करता है। pic.twitter.com/ZdngmtGIoW
– अली बेह्रौज़ (@behrouz_ali) 13 जनवरी 2025
एक अलग पोस्ट में, बेहरोज़ ने दावा किया कि BABILong बेंचमार्क (सुई-इन-ए-हेस्टैक दृष्टिकोण) पर आंतरिक परीक्षण के आधार पर, टाइटन्स (MAC) मॉडल GPT-4, LLama 3 + RAG जैसे बड़े AI मॉडल से बेहतर प्रदर्शन करने में सक्षम थे। और एलएलएएमए 3 70बी।