क्या हैं डर्टी डेटा और एआई टूल्स ?
डेटा लगभग सभी आंकड़े होते हैं, लेकिन जब भ्रष्ट हो जाते हैं, तो वे अधिक तथ्य नहीं रहते हैं। गंदा डेटा ठीक इसी तथ्य के बारे में है। डेटा मात्रा में और बहुत सारे फैशन में आता है। जब आप डेटा को उसके प्रदूषित रूप में देखना शुरू करते हैं - अब उन कई पूर्वाग्रहों के बारे में बात नहीं करना है जिनसे इसे झटका लगता है - तो यह आपको भ्रम और मोहभंग के दलदल में छोड़ने के लिए बाध्य है, और इस कथन पर हमेशा थोड़ा सा भी अतिशयोक्ति नहीं होती है। एक्सपेरियन के एक दस्तावेज़ के अनुसार, "औसतन, यू.एस. संगठन अपने तथ्यों में 32 प्रतिशत को गलत मानते हैं, समापन वर्ष के 25 प्रतिशत की तुलना में 28 प्रतिशत की वृद्धि हुई है।" जब तक आपको डेटा क्लीनिंग गियर और उनके कार्यक्रमों का स्पष्ट ज्ञान नहीं होगा, तब तक सावधानीपूर्वक तैयार की गई सांख्यिकी-संचालित पद्धति कभी भी मदद के लिए नहीं आएगी। डेटा को उसके सही प्रारूप में प्रयोग करने योग्य बनाने के लिए गंभीर आंकड़े और डेटा सफाई उपकरण के शीर्ष पांच रूप यहां दिए गए हैं...
👉 डुप्लिकेट डेटा:
डुप्लिकेट आँकड़े एक आनुवंशिक रूप से तुलनीय जुड़वां होने जैसा कुछ है जो कचरा बात करने के लिए सबसे प्रभावी मौजूद है। यह सांख्यिकी प्रवासन, रिकॉर्ड एक्सचेंजों के माध्यम से, रिकॉर्ड एकीकरण, और तीसरे जन्मदिन समारोह कनेक्टर, मैनुअल एक्सेस और बैच आयात जैसे अनन्य दृष्टिकोणों में अधिकतम को प्रभावित करता है। यह फुलाए गए गैरेज काउंट नंबर, अक्षम कार्यप्रवाह और सांख्यिकी पुनर्प्राप्ति का कारण बनता है। तिरछी मेट्रिक्स और एनालिटिक्स, तथ्यों की दुर्गमता के कारण नकारात्मक सॉफ्टवेयर प्रोग्राम को अपनाना, सीआरएम पर कम आरओआई और मार्केटिंग ऑटोमेशन स्ट्रक्चर आदि
👉 पुराना डेटा:
जो लोग जीपीएस का उपयोग करते हैं, वे काफी हद तक यह समझते हैं कि पुराने रिकॉर्ड रखने का तरीका क्या है। GPS डेटा के बाद इमारतों में ऑटोमोबाइल चलाना कोई ऐसा आनंद नहीं है जो कोई व्यक्ति लेना चाहता है। कुछ सांख्यिकी समीक्षाएं इस श्रेणी में आती हैं; स्पष्ट रूप से आशाजनक हालांकि काफी पुराना है। यह लगभग ऐसा है जैसे कोई रिकॉर्ड नहीं होना या पूरी तरह से बदतर है। यह सब इस बात पर निर्भर करता है कि आप इसे कितनी तेजी से खोज सकते हैं और इसे दूर कर सकते हैं। यह व्यक्तियों, रीब्रांडेड समूहों, या समय के साथ सुधार करने वाली संरचनाओं के माध्यम से भूमिकाओं और निगमों का विकल्प हो, पुराने डेटा का उपयोग किसी भी तरह से आधुनिक परिस्थितियों में अंतर्दृष्टि आकर्षित करने के लिए नहीं किया जाना चाहिए।
👉 असुरक्षित रिकॉर्ड:
सरकारों द्वारा सख्ती से सांख्यिकी गोपनीयता कानूनी दिशानिर्देशों को लागू करने और अनुपालन के लिए आर्थिक प्रोत्साहन की आपूर्ति के साथ, एजेंसियां जल्दी से असुरक्षित तथ्यों के जोखिम में आ रही हैं। डिजिटल सहमति, निर्णय लेने और गोपनीयता सूचनाओं के साथ-साथ डिजिटल गोपनीयता सुनिश्चित करने के लिए उपभोक्ता-केंद्रित तंत्र ने कुछ व्यावसायिक या सामाजिक उपयोग में आँकड़ों को डालने की विधि के भीतर एक उल्लेखनीय कार्य किया है। यूरोपीय संघ के भीतर GDPR, कैलिफ़ोर्निया का उपभोक्ता गोपनीयता अधिनियम (CCPA), और ऑनलाइन उपभोक्ता जानकारी की गोपनीयता की रक्षा के लिए मेन का अधिनियम कुछ नाम हैं। उदाहरण के लिए, जबकि कोई पुरुष या महिला किसी कंपनी के उपभोक्ता डेटाबेस से बाहर निकलना पसंद करते हैं, अब निगमों के एक हिस्से पर उपभोक्ता सांख्यिकी गोपनीयता नियमों का पालन नहीं करना उन्हें कानूनी गति के लिए उत्तरदायी बनाता है। आमतौर पर, यह इस तथ्य के कारण होता है कि कंपनियां बहुत सारे आंकड़े जमा करती हैं, और वह भी अव्यवस्थित है। एक सुगम डेटाबेस होने की कवायद के साथ रिकॉर्ड गोपनीयता सुरक्षा कानूनी दिशानिर्देशों का पालन करना आसान हो जाता है।
👉 असंगत आँकड़े:
असाधारण स्थानों में संग्रहीत इसी तरह के तथ्य असंगति को ऊपर की ओर जोर देते हैं, जिसे रिकॉर्ड अतिरेक भी कहा जाता है। सिंक रिकॉर्ड से बाहर, उदाहरण के लिए, अलग-अलग जगहों पर संग्रहीत अलग-अलग नामों वाले समान आंकड़े एक असंगति को ऊपर की ओर जोर देते हैं। एक चर जो सभी नेता अधिकारियों के तथ्यों की दुकान करता है, इसमें अलग-अलग नाम होते हैं जिनमें सीईओ आदि शामिल होते हैं, जो आंकड़ों के स्वरूपण के अंदर एक विसंगति पैदा करता है और विभाजन को कठिन बना देता है। क्षेत्र में सफाई के अच्छे आँकड़े होने से समस्या को असाधारण मात्रा में टालने में मदद मिल सकती है। कंपनियों को एक स्पष्ट स्कीमा बनाने की आवश्यकता है कि क्षेत्र में सही KPI के साथ एक महान डेटाबेस कैसा होना चाहिए।
👉 अधूरा डेटा:
अपूर्ण जानकारी में अभिलेख प्रसंस्करण के लिए आवश्यक प्रमुख क्षेत्रों का अभाव है। उदाहरण के लिए, यदि खेल गतिविधियों की उपयोगिता को बेचने के लिए सेल उपयोगकर्ताओं के रिकॉर्ड का विश्लेषण किया जा रहा है, तो विज्ञापन विपणन अभियान पर लिंग चर की कमी का बहुत बड़ा प्रभाव हो सकता है। एक रिपोर्ट पर जितने अधिक प्रकार के रिकॉर्ड इंगित करते हैं, उतनी ही अतिरिक्त अंतर्दृष्टि व्यवहार्य होती है। लीड रूटिंग, स्कोरिंग और सेगमेंटेशन जैसी डेटा प्रक्रियाएं संचालन के लिए प्रमुख क्षेत्रों के संग्रह पर निर्भर करती हैं। इस विसंगति का कोई एक उत्तर नहीं है। या तो एक गाइड डेटा के साथ जांच करता है ताकि लापता क्षेत्रों का पता लगाया जा सके, जो बहुत से उदाहरणों में अवास्तविक साबित होता है, या प्रक्रिया को स्वचालित करने के लिए लक्ष्यों और ग्राहकों के कुछ प्रोफाइल बनाने की आवश्यकता होती है।
🤔 डेटा सफाई गियर...
👉 ओपन रिफाइन:
ओपन रिफाइन का उपयोग करके, आप न केवल गलतियों को साफ कर सकते हैं, बल्कि आंकड़ों का निरीक्षण भी कर सकते हैं, आंकड़ों में संशोधन कर सकते हैं और इसके इतिहास की खरीदारी कर सकते हैं। इस उपकरण के साथ, अब आपको किसी विशेष ऑपरेशन की कार्यक्षमता के लिए परीक्षण करने की आवश्यकता नहीं है और यह विभिन्न प्रकार के संचालन पर काम करता है। यह सार्वजनिक डेटाबेस के लिए काम करता है जो आम जनता के लिए उस आकार में प्रवेश का अधिकार प्राप्त करने के लिए एक विशिष्ट रूप में आपूर्ति की जाती है। यह अतिरिक्त रूप से सुलह Webservices के लिए समर्थन में मदद करता है। यह सब विश्लेषण के बारे में डेटासेट का एक हिस्सा बन गया है। आप कुछ ही चरणों में अपने डेटासेट को इंटरनेट से हाइपरलिंक भी कर सकते हैं। OpenRefine अतिरिक्त रूप से सामंजस्य स्थापित करने वाली बहुत सी वेबसाइटों के लिए समर्थन में मदद करता है।
👉 विनप्योर क्लीन एंड मैच:
एक सहज ज्ञान युक्त व्यक्ति इंटरफ़ेस के साथ, यह रिकॉर्ड को फ़िल्टर, फिट और डुप्लिकेट कर सकता है, और घरेलू रूप से स्थापित किया जा सकता है, अब डेटा सुरक्षा के बारे में दर्दनाक नहीं है। सुरक्षा विशेषता इसका मुख्य कार्य है, यही कारण है कि यह सीआरएम तकनीक और मेलिंग सूची की जानकारी के लिए मील का उपयोग करता है। विनप्योर की विशेषज्ञता का क्षेत्र स्प्रेडशीट, सीएसवी, एसक्यूएल सर्वर से सेल्सफोर्स और ओरेकल सहित विभिन्न प्रकार के डेटाबेस पर इसकी प्रयोज्यता में निहित है। यह सफाई उपकरण फ़ज़ी मिलान और नियम-आधारित प्रोग्रामिंग जैसी उपयोगी क्षमताओं के साथ आता है।
👉 टिब्को स्पष्टता:
TIBCO क्लैरिटी एक स्व-प्रदाता सूचना सफाई उपकरण है जो क्लाउड कैरियर या डेस्कटॉप उपयोगिता के रूप में उपलब्ध है। यह विभिन्न उद्देश्यों के लिए आँकड़ों को साफ कर सकता है। उदाहरण के लिए, स्पॉटफायर में संरक्षक आंकड़ों की सफाई, एक मास्टर तथ्य प्रबंधन उत्तर में समेकित करने के लिए तैयार तथ्य प्राप्त करना, टिब्को क्लैरिटी यह सब कर सकता है। इसमें क्लाउड, स्पॉटफायर, जैस्परसॉफ्ट, एक्टिवस्पेस, एमडीएम, मार्केटो और सेल्सफोर्स जैसे अनूठे प्लेटफॉर्म पर डेटा की सफाई में सहायता के लिए सांख्यिकी सत्यापन, डिडुप्लीकेशन, मानकीकरण, ट्रांसफॉर्मिंग और विज़ुअलाइज़िंग रिकॉर्ड जैसे कई एप्लिकेशन हैं।
👉 परबोला:
यह एक नो-कोड सूचना पाइपलाइन उपकरण है जो बाहरी सूचना संसाधनों से आंकड़े आपके सांख्यिकी कार्यप्रवाह में लाता है। इस उपकरण का उपयोग करके, आप एक श्रृंखला में एक नोड बना सकते हैं और अपने आँकड़ों को आसान बना सकते हैं। जानकारी को एक स्थान से दूसरे स्थान पर स्विच करने के लिए गोंद उपकरण के रूप में पेंटिंग के लिए व्यक्ति क्षमताएं काफी सटीक हैं। हालांकि, जब आपको इसकी आवश्यकता होती है, तो उचित आंकड़े प्राप्त करना, साफ करना और गणना करना मुश्किल होता है। इस उपकरण के साथ चांदी की परत मापनीयता और कर्मियों को प्रस्तुत की जाने वाली दृश्यता में निहित है।
👉 डेटा सीढ़ी:
एक सूचना सफाई उपकरण जो एक्सेल, टीXT फाइलों और कई अन्य जैसे अलग-अलग संपत्तियों से डेटा जोड़ता है, गलतियों को सही ढंग से पहचानता है और उन्हें एक निर्बाध डेटासेट में समेकित करने के लिए हटा देता है। यह विशेष रूप से स्वास्थ्य सेवा और वित्त में संवेदनशील तथ्यों को सही करने के लिए, विशेष रूप से धोखाधड़ी और अपराध का पता लगाने के लिए विशेष सांख्यिकीय कंपनियों के साथ जांच के माध्यम से जानकारी के दोहराव के लिए जाना जाता है। एक सही सफाई उपकरण के रूप में जाना जाता है, यह उपयोगकर्ता-सुखद और सभी के लिए एक अच्छा सौदा है, इसे एक पूर्ण रिकॉर्ड सफाई उपकरण के रूप में गिना जा सकता है।


टिप्पणियाँ
एक टिप्पणी भेजें