कैसे डीपमाइंड कंप्यूटर नियंत्रण के लिए एजेंट्स को प्रशिक्षित करते हैं रोजमर्रा के कार्यों के लिए ?

फ़रवरी 24, 2022

कैसे डीपमाइंड कंप्यूटर नियंत्रण के लिए एजेंट्स को प्रशिक्षित करते हैं रोजमर्रा के कार्यों के लिए ?

जबकि आधुनिक एआई संरचनाओं का लेआउट और सुधार काफी हद तक परिणाम-उन्मुख रहा है, ऐसी स्थितियां भी हैं जहां मॉडल सामान्य जिम्मेदारियों के साथ सहायता करने के लिए "एक इंसान के रूप में" चीजों को करना सीखते हैं, तो यह शानदार हो सकता है। यह बिल्कुल नए डीपमाइंड पेपर का आधार है जो कंप्यूटर को नियंत्रित करने के लिए सीखने के लिए एक डेटा-संचालित दृष्टिकोण है, जो उन विक्रेताओं को प्रस्तावित करता है जो प्राकृतिक भाषा में निर्दिष्ट इच्छाओं के साथ कीबोर्ड और माउस के माध्यम से हमारे डिजिटल गैजेट का प्रदर्शन कर सकते हैं।

यह अवलोकन प्राकृतिक भाषा प्रसंस्करण, कोड उत्पादन और 3-डी सिम्युलेटेड दुनिया में मल्टीमॉडल इंटरएक्टिव व्यवहार में नवीनतम लक्षणों पर आधारित है, जिसने उत्कृष्ट क्षेत्र विशेषज्ञता और स्वीकार्य मानव-एजेंट इंटरप्ले दक्षताओं के साथ फैशन की तकनीक को सक्षम किया है। प्रस्तावित डीलर कीबोर्ड और माउस लैपटॉप पर कुशल हैं और पिक्सेल और दस्तावेज़ ऑब्जेक्ट मॉडल (डीओएम) अवलोकनों के साथ अद्वितीय दायित्वों के लिए प्रबंधन करते हैं, और मिनीवॉब ++ बेंचमार्क पर सभी जिम्मेदारियों में अत्याधुनिक और मानव-स्तर का प्रदर्शन प्राप्त करते हैं।

मिनीवॉब++ लैपटॉप में हेरफेर के लिए इंटरनेट-ब्राउज़र-आधारित पूरी तरह से दायित्वों का एक कठिन सूट है, जिसमें साधारण बटन क्लिक से लेकर जटिल फॉर्मफिलिंग तक शामिल है। फैशनेबल रीइन्फोर्समेंट मास्टरिंग (आरएल) तकनीकों का उपयोग करने की अनुमति देते हुए, प्रत्येक असाइनमेंट के लिए प्रोग्रामेटिक रिवार्ड्स होने चाहिए।

पूर्ववर्ती कार्यों के विपरीत, जिसमें एजेंटों को बिना किसी देरी के DOM विवरण के साथ बातचीत करने के लिए प्रशिक्षित किया गया है, प्रस्तावित खुदरा विक्रेता माउस और कीबोर्ड निर्देशों को दर्ज करने के लिए X11 सर्वर के साथ जुड़ते हैं, जिससे उन्हें मानव द्वारा उपयोग किए जाने वाले समान आंदोलनों के माध्यम से एक सामान्य वेब ब्राउज़र के साथ बातचीत करने के लिए मजबूर किया जाता है।

उनके एजेंट आर्किटेक्चर के लिए, टीम ने न्यूनतम मोडैलिटी-सटीक प्रसंस्करण को लागू करता है, आमतौर पर प्रासंगिक डेटा में लचीले ढंग से भाग लेने के लिए एक मल्टीमॉडल ट्रांसफॉर्मर पर भरोसा किया जाता है। डीलर विज़ुअल इनपुट और भाषा इनपुट प्राप्त करते हैं जो चार रेसनेट ब्लॉक और तेजी से आउटपुट चैनलों के माध्यम से फीचर वैक्टर उत्पन्न करने के लिए बायपास करते हैं जो टोकन की सूची में चपटे होते हैं।   इनपुट एम्बेडिंग, भाषा एम्बेडिंग और आगे की खोज की गई एम्बेडिंग को एक मल्टीमॉडल ट्रांसफॉर्मर में फीड किया जाता है, और परिणामी आउटपुट को 4 आउटपुट उत्पन्न करने के लिए दो LSTM के अनुक्रम में फीड किया जाता है।

उनके अनुभवजन्य रूप से देखने के लिए, टीम ने 77 मानव प्रतिभागियों (कुल लगभग 6300 घंटे) से 104 मिनीवॉब ++ कार्यों के 2.4 मिलियन से अधिक प्रदर्शनों को क्राउडसोर्स किया, और अपने विक्रेताओं को वीएमपीओ के माध्यम से नकली मास्टरिंग (व्यवहार क्लोनिंग) और आरएल के उपयोग को प्रशिक्षित किया है।

मूल्यांकन में, प्रस्तावित विपणक ने मिनीवॉब ++ कर्तव्यों के पूरे सूट में मानव-चरण का प्रदर्शन किया है, और यहां तक कि कुछ कर्तव्यों पर मानव समग्र प्रदर्शन के साथ-साथ चलने वाले गैजेट्स पर भी बड़े पैमाने पर प्रदर्शन किया है। शोधकर्ताओं ने अपने खुदरा विक्रेताओं में पास-उपक्रम हस्तांतरण क्षमता के लिए भी मजबूत सबूत देख सकते हैं। कुल मिलाकर, यदि आप सामान्य कर्तव्यों में हमारी मदद करना चाहते हैं, तो यह एक मानवीय तरीके से कंप्यूटर को नियंत्रित करने के लिए एक नया दृष्टिकोण सुझाता है।

यह ब्लॉग खोजें

techknows-u

कैसे डीपमाइंड कंप्यूटर नियंत्रण के लिए एजेंट्स को प्रशिक्षित करते हैं रोजमर्रा के कार्यों के लिए ?

टिप्पणियाँ

एक टिप्पणी भेजें

लोकप्रिय पोस्ट

कैसे कर सकते हैं हम जांच 'इंटरनेट,वाई-फाई नेटवर्क' स्पीड और प्रदर्शन की ?

2022 में जानने के लिए 'AI सॉफ़्टवेयर' के शीर्ष 10 ओपन-सोर्स क्या हैं ?