एआय विसंगती कशा शोधते?

डेटा ऑपरेशन्समध्ये विसंगती शोधणे हा शांत नायक आहे - आग लागण्यापूर्वी धुराचा अलार्म जो कुजबुजतो.

सोप्या भाषेत सांगायचे तर: एआय "सामान्य-इश" कसा दिसतो हे शिकते, नवीन घटनांना विसंगती स्कोअर आणि नंतर एका थ्रेशोल्डच्या . जेव्हा तुमचा डेटा हंगामी, गोंधळलेला, प्रवाहित होणारा आणि कधीकधी तुमच्याशी खोटे बोलणारा असतो तेव्हा तुम्ही "सामान्य-इश" कसे परिभाषित करता यात सैतान आहे. [1]

या लेखानंतर तुम्हाला वाचायला आवडतील असे लेख:

🔗 एआय समाजासाठी हानिकारक का असू शकते?
व्यापक एआय अवलंबनाच्या नैतिक, आर्थिक आणि सामाजिक जोखमींचे परीक्षण करते.

🔗 एआय सिस्टीम प्रत्यक्षात किती पाणी वापरतात हे
डेटा सेंटर कूलिंग, प्रशिक्षणाच्या मागण्या आणि पर्यावरणीय पाण्याचा परिणाम स्पष्ट करते.

🔗 एआय डेटासेट म्हणजे काय आणि ते का महत्त्वाचे आहे
डेटासेट, लेबलिंग, स्रोत आणि मॉडेल कामगिरीमध्ये त्यांची भूमिका परिभाषित करते.

🔗 जटिल डेटावरून AI ट्रेंडचा अंदाज कसा लावते
यामध्ये पॅटर्न ओळख, मशीन लर्निंग मॉडेल्स आणि वास्तविक जगाच्या अंदाजाचा वापर समाविष्ट आहे.

"एआय विसंगती कशा शोधते?"

एका चांगल्या उत्तराने अल्गोरिदमची यादी करणे पुरेसे नाही. त्यात यांत्रिकी आणि जेव्हा तुम्ही त्यांना वास्तविक, अपूर्ण डेटावर लागू करता तेव्हा ते कसे दिसतात हे स्पष्ट केले पाहिजे. सर्वोत्तम स्पष्टीकरणे:

मूलभूत घटक दाखवा: वैशिष्ट्ये , बेसलाइन , स्कोअर आणि थ्रेशोल्ड . [1]
व्यावहारिक कुटुंबांची तुलना करा: अंतर, घनता, एक-वर्ग, अलगाव, संभाव्यता, पुनर्बांधणी. [1]
वेळ-मालिकेच्या विचित्र गोष्टी हाताळा: "सामान्य" दिवसाची वेळ, आठवड्याचा दिवस, प्रकाशने आणि सुट्ट्यांवर अवलंबून असते. [1]
मूल्यांकनाला खऱ्या अडचणीसारखे समजा: खोटे अलार्म फक्त त्रासदायक नसतात - ते विश्वास जाळतात. [4]
"ते विचित्र आहे" हे मूळ कारण नाही म्हणून अर्थ लावणे + लूपमध्ये मानवीयता समाविष्ट करा. [5]

कोअर मेकॅनिक्स: बेसलाइन, स्कोअर, थ्रेशोल्ड 🧠

बहुतेक विसंगती प्रणाली - कल्पनारम्य असो वा नसो - तीन गतिमान भागांमध्ये उकळतात:

१) प्रतिनिधित्व (म्हणजे: मॉडेल काय पाहतो )

कच्चे सिग्नल क्वचितच पुरेसे असतात. तुम्ही एकतर वैशिष्ट्ये (रोलिंग स्टॅट्स, रेशो, लॅग्ज, हंगामी डेल्टा) तयार करता किंवा (एम्बेडिंग, सबस्पेसेस, पुनर्रचना) शिकता

२) स्कोअरिंग (म्हणजे: हे किती "विचित्र" आहे?)

सामान्य स्कोअरिंग कल्पनांमध्ये हे समाविष्ट आहे:

अंतरावर आधारित : शेजाऱ्यांपासून दूर = संशयास्पद. [1]
घनतेवर आधारित : कमी स्थानिक घनता = संशयास्पद (LOF हे पोस्टर चाइल्ड आहे). [1]
एक-वर्ग सीमा : "सामान्य" शिका, बाहेर काय पडते ते चिन्हांकित करा. [1]
संभाव्यता : बसवलेल्या मॉडेल अंतर्गत कमी शक्यता = संशयास्पद. [1]
पुनर्बांधणी त्रुटी : जर सामान्य प्रशिक्षित मॉडेल ते पुन्हा बांधू शकत नसेल, तर ते कदाचित बंद आहे. [1]

३) थ्रेशहोल्डिंग (म्हणजे: घंटा कधी वाजवायची)

थ्रेशोल्ड निश्चित, क्वांटाइल-आधारित, प्रति-सेगमेंट किंवा खर्च-संवेदनशील असू शकतात - परंतु ते व्हाइब्स नव्हे तर अलर्ट बजेट आणि डाउनस्ट्रीम खर्चाच्या विरूद्ध कॅलिब्रेट

एक अतिशय व्यावहारिक तपशील: सायकिट-लर्नचे आउटलायर/नॉव्हेल्टी डिटेक्टर कच्चे स्कोअर आणि नंतर स्कोअर इनलायर/आउटलायर निर्णयांमध्ये रूपांतरित करण्यासाठी थ्रेशोल्ड

नंतर वेदना टाळणाऱ्या जलद व्याख्या 🧯

दोन फरक जे तुम्हाला सूक्ष्म चुकांपासून वाचवतात:

आउटलायर डिटेक्शन : तुमच्या प्रशिक्षण डेटामध्ये आधीच आउटलायर असू शकतात; अल्गोरिदम तरीही "दाट सामान्य प्रदेश" मॉडेल करण्याचा प्रयत्न करतो.
नवीनता शोधणे नवीन निरीक्षणे शिकलेल्या सामान्य पद्धतीशी जुळतात की नाही हे तुम्ही ठरवत आहात

तसेच: नवीनता शोधणे हे बहुतेकदा एक-वर्ग वर्गीकरण - सामान्य मॉडेलिंग कारण असामान्य उदाहरणे दुर्मिळ किंवा अपरिभाषित आहेत. [1]

तुम्ही प्रत्यक्षात वापरणार असलेले देखरेखीशिवाय काम करणारे घोडे 🧰

जेव्हा लेबल्स दुर्मिळ असतात (जे मुळात नेहमीच असते), तेव्हा ही साधने खऱ्या पाइपलाइनमध्ये दिसतात:

आयसोलेशन फॉरेस्ट : अनेक टॅब्युलर प्रकरणांमध्ये एक मजबूत डिफॉल्ट, व्यवहारात मोठ्या प्रमाणावर वापरले जाते आणि सायकिट-लर्नमध्ये अंमलात आणले जाते. [2]
एक-वर्ग SVM : प्रभावी असू शकते परंतु ट्यूनिंग आणि गृहीतकांबद्दल संवेदनशील आहे; सायकिट-लर्न स्पष्टपणे काळजीपूर्वक हायपरपॅरामीटर ट्यूनिंगची आवश्यकता दर्शविते. [2]
लोकल आउटलायर फॅक्टर (LOF) : क्लासिक डेन्सिटी-बेस्ड स्कोअरिंग; जेव्हा "सामान्य" हा एक चांगला बिंदू नसतो तेव्हा उत्तम. [1]

एक व्यावहारिक गट आठवड्यातून पुन्हा शोधतो: तुम्ही प्रशिक्षण संचावर आउटलायर डिटेक्शन करत आहात की नाही यावर अवलंबून LOF वेगळ्या पद्धतीने वागते. नवीन डेटावर नवीनता शोधणे - scikit-learn ला देखील novelty=True जेणेकरून सुरक्षितपणे न पाहिलेले गुण मिळतील. [2]

डेटा विचित्र असतानाही काम करणारी एक मजबूत आधाररेषा 🪓

जर तुम्ही "आम्हाला फक्त असे काहीतरी हवे आहे जे आम्हाला विस्मृतीत नेऊ नये" अशा स्थितीत असाल, तर मजबूत आकडेवारी कमी लेखली जाते.

सुधारित झेड-स्कोअरमध्ये मध्यक आणि MAD (मध्यक परिपूर्ण विचलन) वापरला जातो 3.5 पेक्षा जास्त परिपूर्ण मूल्यावर सामान्यतः वापरल्या जाणाऱ्या "संभाव्य बाह्य" नियमाची नोंद करते . [3]

हे प्रत्येक विसंगती समस्येचे निराकरण करणार नाही - परंतु ते बहुतेकदा संरक्षणाची एक मजबूत पहिली ओळ असते, विशेषतः गोंगाटाच्या मेट्रिक्स आणि सुरुवातीच्या टप्प्यातील देखरेखीसाठी. [3]

टाइम सिरीज रिअ‍ॅलिटी: "सामान्य" हे कधी ⏱️📈 यावर अवलंबून असते.

वेळ मालिकेतील विसंगती गुंतागुंतीच्या आहेत कारण संदर्भ हा संपूर्ण मुद्दा आहे: दुपारी एक वाढ अपेक्षित असू शकते; पहाटे ३ वाजता तीच वाढ म्हणजे काहीतरी आग लागली आहे. म्हणून अनेक व्यावहारिक प्रणाली वेळेची जाणीव असलेल्या वैशिष्ट्यांचा (लॅग्ज, हंगामी डेल्टा, रोलिंग विंडो) वापर करून सामान्यतेचे मॉडेल तयार करतात आणि अपेक्षित पॅटर्नच्या सापेक्ष स्कोअर विचलन करतात. [1]

जर तुम्हाला फक्त एकच नियम आठवत असेल: तुमचा अर्धा ट्रॅफिक "विसंगत" घोषित करण्यापूर्वी तुमचा बेसलाइन (तास/दिवस/प्रदेश/सेवा स्तर) विभागा

मूल्यांकन: दुर्मिळ घटनांचा सापळा 🧪

विसंगती शोधणे बहुतेकदा "गवताच्या गंजीमध्ये सुई" असते, ज्यामुळे मूल्यांकन विचित्र होते:

जेव्हा पॉझिटिव्ह दुर्मिळ असतात तेव्हा ROC वक्र भ्रामकपणे चांगले दिसू शकतात.
असंतुलित सेटिंग्जसाठी प्रिसिजन-रिकॉल व्ह्यूज बहुतेकदा अधिक माहितीपूर्ण असतात कारण ते सकारात्मक वर्गावरील कामगिरीवर लक्ष केंद्रित करतात. [4]
ऑपरेशनलदृष्ट्या, तुम्हाला अलर्ट बजेटची : राग न सोडता लोक दर तासाला किती अलर्ट प्रत्यक्षात ट्राय करू शकतात? [4]

रोलिंग विंडोमध्ये बॅकटेस्टिंग केल्याने तुम्हाला क्लासिक फेल्युअर मोड पकडण्यास मदत होते: "गेल्या महिन्याच्या वितरणावर ते सुंदरपणे काम करते." [1]

अर्थ लावणे आणि मूळ कारण: तुमचे काम दाखवा 🪄

स्पष्टीकरण न देता इशारा देणे म्हणजे गूढ पोस्टकार्ड मिळवण्यासारखे आहे. उपयुक्त आहे, पण निराशाजनक आहे.

कोणत्या वैशिष्ट्यांचा सर्वाधिक वाटा आहे हे दर्शवून किंवा "हे सामान्य दिसण्यासाठी काय बदलण्याची आवश्यकता आहे?" शैली स्पष्टीकरण देऊन अर्थ लावण्याची साधने मदत करू शकतात. इंटरप्रिटेबल मशीन लर्निंग पुस्तक हे सामान्य पद्धती (SHAP-शैलीतील गुणधर्मांसह) आणि त्यांच्या मर्यादांसाठी एक ठोस, गंभीर मार्गदर्शक आहे. [5]

ध्येय फक्त भागधारकांना दिलासा देणे नाही - ते जलद ट्रायज आणि कमी पुनरावृत्ती घटना घडवणे आहे.

तैनाती, प्रवाह आणि अभिप्राय लूप 🚀

मॉडेल्स स्लाईडमध्ये राहत नाहीत. ते पाइपलाइनमध्ये राहतात.

"उत्पादनाच्या पहिल्या महिन्याची" एक सामान्य गोष्ट: डिटेक्टर बहुतेकदा डिप्लॉयमेंट, बॅच जॉब्स आणि गहाळ डेटा दर्शवतो... जे अजूनही उपयुक्त कारण ते तुम्हाला "डेटा गुणवत्ता घटना" "व्यवसायातील विसंगती" पासून वेगळे करण्यास भाग पाडते.

व्यवहारात:

ड्रिफ्टचे निरीक्षण करा आणि पुन्हा प्रशिक्षण द्या/पुनर्कॅलिब्रेट करा. [1]
लॉग स्कोअर इनपुट + मॉडेल आवृत्ती जेणेकरून तुम्ही काहीतरी का पेज केले ते पुन्हा तयार करू शकाल. [5]
कालांतराने थ्रेशोल्ड आणि सेगमेंट ट्यून करण्यासाठी मानवी अभिप्राय (उपयुक्त विरुद्ध गोंगाटयुक्त सूचना) कॅप्चर करा

सुरक्षा दृष्टिकोन: आयडीएस आणि वर्तणुकीय विश्लेषण 🛡️

सुरक्षा पथके अनेकदा नियम-आधारित शोधांसह विसंगती कल्पनांचे मिश्रण करतात: "सामान्य यजमान वर्तनासाठी आधाररेषा", तसेच ज्ञात वाईट नमुन्यांसाठी स्वाक्षऱ्या आणि धोरणे. NIST चे SP 800-94 (अंतिम) घुसखोरी शोध आणि प्रतिबंध प्रणाली विचारांसाठी व्यापकपणे उद्धृत केलेले फ्रेमवर्क राहिले आहे; ते असेही नमूद करते की 2012 चा मसुदा "रेव्ह. 1" कधीही अंतिम झाला नाही आणि नंतर तो निवृत्त करण्यात आला. [3]

भाषांतर: जिथे मदत होते तिथे ML वापरा, पण कंटाळवाणे नियम टाकून देऊ नका - ते काम करतात म्हणून ते कंटाळवाणे आहेत.

तुलना सारणी: एका दृष्टीक्षेपात लोकप्रिय पद्धती 📊

साधन / पद्धत	सर्वोत्तम साठी	ते का काम करते (सरावात)
मजबूत / सुधारित झेड-स्कोअर	साधे मेट्रिक्स, जलद बेसलाइन	जेव्हा तुम्हाला "पुरेसे चांगले" आणि कमी खोटे अलार्म हवे असतील तेव्हा मजबूत पहिला पास. [3]
आयसोलेशन फॉरेस्ट	सारणीबद्ध, मिश्र वैशिष्ट्ये	ठोस डीफॉल्ट अंमलबजावणी आणि व्यवहारात मोठ्या प्रमाणात वापरली जाते. [2]
एक-वर्ग SVM	संक्षिप्त "सामान्य" प्रदेश	सीमा-आधारित नवीनता शोधणे; ट्यूनिंग खूप महत्त्वाचे आहे. [2]
स्थानिक बाह्य घटक	मॅनिफोल्ड-इश नॉर्मल्स	शेजारच्या लोकांविरुद्ध घनतेचा फरक स्थानिक विचित्रता ओळखतो. [1]
पुनर्बांधणी त्रुटी (उदा., ऑटोएन्कोडर-शैली)	उच्च-आयामी नमुने	सामान्य मार्गावर चालवा; मोठ्या पुनर्बांधणी त्रुटी विचलन दर्शवू शकतात. [1]

चीट कोड: मजबूत बेसलाइनसह सुरुवात करा + एक कंटाळवाणा आणि देखरेखीशिवाय पद्धत, नंतर जिथे ते भाडे देते तिथेच जटिलता जोडा.

एक छोटीशी खेळपट्टी: शून्यापासून अलर्टपर्यंत 🧭

"विचित्र" ची कार्यात्मकदृष्ट्या व्याख्या करा (लेटन्सी, फसवणुकीचा धोका, CPU थ्रॅश, इन्व्हेंटरी धोका).
बेसलाइन (मजबूत आकडेवारी किंवा खंडित थ्रेशोल्ड) सह सुरुवात करा. [3]
पहिल्या पास म्हणून एक अनसप्रेव्हाइज्ड मॉडेल निवडा
अलर्ट बजेटसह मर्यादा निश्चित करा आणि जर सकारात्मक गोष्टी दुर्मिळ असतील तर पीआर-शैलीच्या विचारसरणीने मूल्यांकन करा. [4]
स्पष्टीकरणे + लॉगिंग जोडा जेणेकरून प्रत्येक सूचना पुनरुत्पादित आणि डीबग करण्यायोग्य असेल. [5]
बॅकटेस्ट, शिप, लर्न, रिकॅलिब्रेट - ड्रिफ्ट सामान्य आहे. [1]

तुम्ही हे एका आठवड्यात नक्कीच करू शकता... जर तुमचे टाइमस्टॅम्प डक्ट टेप आणि होपने एकत्र ठेवलेले नसतील तर. 😅

शेवटचे टिप्पण्या - खूप लांब, मी ते वाचले नाही🧾

एआय "सामान्य" चे व्यावहारिक चित्र शिकून, विचलनांचे मूल्यांकन करून आणि मर्यादा ओलांडणाऱ्या गोष्टींना चिन्हांकित करून विसंगती शोधते. सर्वोत्तम प्रणाली आकर्षक असल्याने नव्हे तर कॅलिब्रेटेड : सेगमेंटेड बेसलाइन, अलर्ट बजेट, अर्थ लावता येण्याजोगे आउटपुट आणि एक फीडबॅक लूप जो गोंगाट करणाऱ्या अलार्मला विश्वासार्ह सिग्नलमध्ये बदलतो. [1]

संदर्भ

पिमेंटेल आणि इतर (२०१४) - नवीनता शोधण्याचा आढावा (पीडीएफ, ऑक्सफर्ड विद्यापीठ) अधिक वाचा
सायकिट-लर्न डॉक्युमेंटेशन - नवीनता आणि बाह्य शोध अधिक वाचा
NIST/SEMATECH ई-हँडबुक - आउटलायर्सची ओळख अधिक वाचा आणि NIST CSRC - SP 800-94 (अंतिम): घुसखोरी शोध आणि प्रतिबंध प्रणालींसाठी मार्गदर्शक (IDPS) अधिक वाचा
सायटो आणि रेहम्समीयर (२०१५) - (PLOS ONE) वर बायनरी क्लासिफायर्सचे मूल्यांकन करताना प्रिसिजन-रिकॉल प्लॉट आरओसी प्लॉटपेक्षा अधिक माहितीपूर्ण आहे. अधिक वाचा
मोलनार - इंटरप्रिटेबल मशीन लर्निंग (वेब बुक) अधिक वाचा

अधिकृत एआय असिस्टंट स्टोअरमध्ये नवीनतम एआय शोधा

आमच्याबद्दल

ब्लॉगवर परत

देश/प्रदेश