थोडक्यात उत्तर: एआय मॉडेल्सचे चांगले मूल्यांकन करण्यासाठी, खऱ्या वापरकर्त्यासाठी "चांगले" कसे दिसते आणि हातात घेतलेला निर्णय कसा आहे हे परिभाषित करून सुरुवात करा. नंतर प्रतिनिधी डेटा, कडक गळती नियंत्रणे आणि अनेक मेट्रिक्स वापरून पुनरावृत्ती करण्यायोग्य मूल्यांकन तयार करा. ताण, पूर्वाग्रह आणि सुरक्षा तपासणी जोडा आणि जेव्हा जेव्हा काहीही बदलते (डेटा, प्रॉम्प्ट, धोरण), तेव्हा हार्नेस पुन्हा चालवा आणि लाँच झाल्यानंतर देखरेख करत रहा.
महत्वाचे मुद्दे:
यशाचे निकष : मेट्रिक्स निवडण्यापूर्वी वापरकर्ते, निर्णय, अडचणी आणि सर्वात वाईट परिस्थितीत अपयश यांची व्याख्या करा.
पुनरावृत्तीक्षमता : प्रत्येक बदलासह तुलनात्मक चाचण्या पुन्हा चालवणारा इव्हल हार्नेस तयार करा.
डेटा स्वच्छता : स्थिर विभाजने ठेवा, डुप्लिकेट टाळा आणि वैशिष्ट्य गळती लवकर रोखा.
विश्वास तपासणी : ताण-चाचणी मजबूती, निष्पक्षता स्लाइस आणि एलएलएम सुरक्षा वर्तन स्पष्ट रूब्रिक्ससह.
जीवनचक्र शिस्त : टप्प्याटप्प्याने सुरू करा, प्रवाह आणि घटनांचे निरीक्षण करा आणि ज्ञात अंतरांचे दस्तऐवजीकरण करा.
या लेखानंतर तुम्हाला वाचायला आवडतील असे लेख:
🔗 एआय नीतिमत्ता म्हणजे काय?
जबाबदार एआय डिझाइन, वापर आणि प्रशासनाचे मार्गदर्शन करणारी तत्त्वे एक्सप्लोर करा.
🔗 एआय बायस म्हणजे काय?
पक्षपाती डेटा एआय निर्णय आणि परिणामांवर कसा परिणाम करतो ते जाणून घ्या.
🔗 एआय स्केलेबिलिटी म्हणजे काय?
कामगिरी, खर्च आणि विश्वासार्हतेसाठी एआय सिस्टमचे स्केलिंग समजून घ्या.
🔗 एआय म्हणजे काय?
कृत्रिम बुद्धिमत्ता, प्रकार आणि वास्तविक जगाच्या वापराचा स्पष्ट आढावा.
१) "चांगल्या" च्या अस्पष्ट व्याख्येपासून सुरुवात करा
मेट्रिक्सपूर्वी, डॅशबोर्डपूर्वी, कोणत्याही बेंचमार्क फ्लेक्सिंगपूर्वी - यश कसे दिसते ते ठरवा.
स्पष्ट करा:
-
वापरकर्ता: अंतर्गत विश्लेषक, ग्राहक, डॉक्टर, ड्रायव्हर, दुपारी ४ वाजता एक थकलेला सपोर्ट एजंट...
-
निर्णय: कर्ज मंजूर करा, फसवणूक ठोठावा, मजकूर सुचवा, नोट्स सारांशित करा
-
सर्वात महत्त्वाचे अपयश:
-
खोटे सकारात्मक (त्रासदायक) विरुद्ध खोटे नकारात्मक (धोकादायक)
-
-
मर्यादा: विलंब, प्रति विनंती खर्च, गोपनीयता नियम, स्पष्टीकरणात्मक आवश्यकता, प्रवेशयोग्यता
हा असा भाग आहे जिथे संघ "अर्थपूर्ण निकाल" ऐवजी "सुंदर मेट्रिक" साठी ऑप्टिमायझेशनकडे वळतात. हे बरेचदा घडते. जसे की... खूप काही.
या जोखीम-जागरूक ठेवण्याचा (आणि व्हायब्स-आधारित नसून) एक ठोस मार्ग म्हणजे विश्वासार्हता आणि जीवनचक्र जोखीम व्यवस्थापनाभोवती चाचणी फ्रेम करणे, जसे NIST AI जोखीम व्यवस्थापन फ्रेमवर्क (AI RMF 1.0) [1] मध्ये करते.

२) “एआय मॉडेल्सची चाचणी कशी करावी” ची चांगली आवृत्ती कशामुळे बनते ✅
एका ठोस चाचणी पद्धतीमध्ये काही गैर-वाटाघाटीयोग्य गोष्टी आहेत:
-
प्रातिनिधिक डेटा (केवळ स्वच्छ प्रयोगशाळेचा डेटा नाही)
-
गळती रोखण्यासाठी क्लिअर स्प्लिट्स
-
बेसलाइन्स लागणारे साधे मॉडेल - बनावट अंदाजक एका कारणासाठी अस्तित्वात आहेत [4])
-
अनेक मेट्रिक्स (कारण एक संख्या तुमच्यासमोर खोटी आहे, नम्रपणे, तुमच्या तोंडावर)
-
ताण चाचण्या (एज केसेस, असामान्य इनपुट, विरोधी परिस्थिती)
-
मानवी पुनरावलोकन लूप (विशेषतः जनरेटिव्ह मॉडेल्ससाठी)
-
प्रक्षेपणानंतर देखरेख (कारण जग बदलते, पाइपलाइन तुटतात आणि वापरकर्ते... सर्जनशील असतात [1])
तसेच: एका चांगल्या दृष्टिकोनात तुम्ही काय चाचणी केली, काय नाही केली आणि तुम्हाला कशाची चिंता आहे याचे दस्तऐवजीकरण करणे समाविष्ट आहे. "मला कशाची चिंता आहे" हा विभाग विचित्र वाटतो - आणि येथूनच विश्वास वाढू लागतो.
संघांना सातत्याने स्पष्ट राहण्यास मदत करणारे दोन दस्तऐवजीकरण नमुने:
-
मॉडेल कार्ड्स (मॉडेल कशासाठी आहे, त्याचे मूल्यांकन कसे केले गेले, ते कुठे अयशस्वी होते) [2]
-
डेटासेटसाठी डेटाशीट्स (डेटा काय आहे, तो कसा गोळा केला गेला, तो कशासाठी वापरावा/काय वापरू नये) [3]
३) साधनाची वास्तविकता: लोक व्यवहारात काय वापरतात 🧰
साधने पर्यायी आहेत. चांगल्या मूल्यांकन सवयी नाहीत.
जर तुम्हाला व्यावहारिक सेटअप हवा असेल, तर बहुतेक संघांना तीन बादल्या मिळतात:
-
प्रयोग ट्रॅकिंग (रन, कॉन्फिगरेशन, आर्टिफॅक्ट्स)
-
मूल्यांकन हार्नेस (पुनरावृत्ती करण्यायोग्य ऑफलाइन चाचण्या + रिग्रेशन सूट)
-
देखरेख (ड्रिफ्ट-इश सिग्नल, कामगिरी प्रॉक्सी, घटना सूचना)
तुम्हाला जंगलात बरीच उदाहरणे दिसतील (अॅन्डोर्समेंट नाही, आणि हो - फीचर्स/किंमत बदल): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.
जर तुम्ही या विभागातून कल्पना पुनरावृत्ती करता येणारा eval हार्नेस तयार करा . तुम्हाला "बटण दाबा → तुलनात्मक परिणाम मिळवा" हवे आहेत, "नोटबुक पुन्हा चालवा आणि प्रार्थना करा" असे नाही.
४) योग्य चाचणी संच तयार करा (आणि डेटा लीक होणे थांबवा) 🚧
"आश्चर्यकारक" मॉडेल्सची एक धक्कादायक संख्या चुकून फसवणूक करत आहे.
मानक एमएल साठी
करिअर वाचवणारे काही अनसेक्सी नियम:
-
ट्रेन/व्हॅलिडेशन/टेस्ट ठेवा (आणि स्प्लिट लॉजिक लिहा)
-
स्प्लिटमध्ये डुप्लिकेट टाळा (समान वापरकर्ता, समान दस्तऐवज, समान उत्पादन, जवळजवळ डुप्लिकेट)
-
वैशिष्ट्य गळतीकडे लक्ष ठेवा (भविष्यातील माहिती "सध्याच्या" वैशिष्ट्यांमध्ये डोकावून पाहत आहे)
-
बेसलाइन (डमी एस्टिमेटर) वापरा जेणेकरून तुम्ही विजय साजरा करू नये... काहीही नाही [4]
गळतीची व्याख्या (द्रुत आवृत्ती): प्रशिक्षण/इव्हलमधील कोणतीही गोष्ट जी मॉडेलला निर्णयाच्या वेळी नसलेल्या माहितीवर प्रवेश देते. ते स्पष्ट ("भविष्यातील लेबल") किंवा सूक्ष्म ("इव्हेंटनंतरचा टाइमस्टॅम्प बकेट") असू शकते.
एलएलएम आणि जनरेटिव्ह मॉडेल्ससाठी
तुम्ही फक्त "एक मॉडेल" नव्हे तर एक प्रॉम्प्ट-अँड-पॉलिसी सिस्टम
-
प्रॉम्प्टचा एक सुवर्ण संच
-
अलीकडील वास्तविक नमुने जोडा (अनामित + गोपनीयता-सुरक्षित)
-
एक एज-केस पॅक : टायपिंगच्या चुका, अपभाषा, मानक नसलेले स्वरूपण, रिक्त इनपुट, बहुभाषिक आश्चर्ये 🌍
एक व्यावहारिक गोष्ट मी एकापेक्षा जास्त वेळा घडताना पाहिली आहे: एक संघ "मजबूत" ऑफलाइन स्कोअरसह येतो, नंतर ग्राहक समर्थन म्हणतो, "छान. त्यात एक महत्त्वाचे वाक्य आत्मविश्वासाने चुकले आहे." दुरुस्ती "मोठे मॉडेल" नव्हती. ते चांगले चाचणी प्रॉम्प्ट , स्पष्ट रूब्रिक्स आणि एक रिग्रेशन सूट होते जे अचूक अपयश मोडला शिक्षा देत होते. साधा. प्रभावी.
५) ऑफलाइन मूल्यांकन: काहीतरी अर्थ असलेले मेट्रिक्स 📏
मेट्रिक्स ठीक आहेत. मेट्रिक मोनोकल्चर नाही.
वर्गीकरण (स्पॅम, फसवणूक, हेतू, ट्रायएज)
अचूकतेपेक्षा जास्त वापरा.
-
अचूकता, आठवण, F1
-
थ्रेशोल्ड ट्यूनिंग (तुमचा डीफॉल्ट थ्रेशोल्ड तुमच्या खर्चासाठी क्वचितच "योग्य" असतो) [4]
-
प्रत्येक विभागातील गोंधळ मॅट्रिक्स (प्रदेश, डिव्हाइस प्रकार, वापरकर्ता गट)
प्रतिगमन (अंदाज, किंमत, स्कोअरिंग)
-
MAE / RMSE (तुम्हाला चुकांची शिक्षा कशी द्यायची आहे यावर आधारित निवडा)
-
आउटपुट "स्कोअर" म्हणून वापरले जातात तेव्हा कॅलिब्रेशन-इश तपासते (स्कोअर वास्तविकतेशी जुळतात का?)
रँकिंग / शिफारस प्रणाली
-
एनडीसीजी, एमएपी, एमआरआर
-
क्वेरी प्रकारानुसार स्लाइस (डोके विरुद्ध शेपूट)
संगणक दृष्टी
-
एमएपी, आयओयू
-
प्रति-वर्ग कामगिरी (दुर्मिळ वर्ग असे असतात जिथे मॉडेल तुम्हाला लाजवतात)
जनरेटिव्ह मॉडेल्स (LLMs)
इथेच लोक... तात्विक 😵💫 मिळवतात
वास्तविक संघांमध्ये काम करणारे व्यावहारिक पर्याय:
-
मानवी मूल्यांकन (सर्वोत्तम सिग्नल, सर्वात हळू लूप)
-
जोडीनुसार पसंती / विजय-दर (अ विरुद्ध ब हा परिपूर्ण स्कोअरिंगपेक्षा सोपा आहे)
-
स्वयंचलित मजकूर मेट्रिक्स (काही कामांसाठी उपयुक्त, काहींसाठी दिशाभूल करणारे)
-
कार्य-आधारित तपासण्या: “त्याने योग्य फील्ड काढल्या का?” “त्याने धोरणाचे पालन केले का?” “आवश्यकतेनुसार स्त्रोतांचा उल्लेख केला का?”
जर तुम्हाला एक संरचित "मल्टी-मेट्रिक, मल्टी-सिनेरियोज" संदर्भ बिंदू हवा असेल, तर HELM हा एक चांगला अँकर आहे: ते अचूकतेच्या पलीकडे मूल्यांकनाला कॅलिब्रेशन, मजबूती, बायस/विषारीपणा आणि कार्यक्षमता ट्रेड-ऑफ [5] यासारख्या गोष्टींमध्ये स्पष्टपणे ढकलते.
थोडेसे विषयांतर: लेखनाच्या गुणवत्तेसाठी स्वयंचलित मेट्रिक्स कधीकधी सँडविचचे वजन करून त्याचे मूल्यांकन केल्यासारखे वाटते. ते काहीच नाही, पण... चला 🥪
६) मजबूती चाचणी: थोडा घाम गाळा 🥵🧪
जर तुमचे मॉडेल फक्त नीटनेटक्या इनपुटवर काम करत असेल, तर ते मुळात काचेचे फुलदाणी आहे. सुंदर, नाजूक, महाग.
चाचणी:
-
आवाज: टायपिंगच्या चुका, गहाळ मूल्ये, मानक नसलेले युनिकोड, स्वरूपणातील त्रुटी
-
वितरण बदल: नवीन उत्पादन श्रेणी, नवीन अपभाषा, नवीन सेन्सर्स
-
अत्यंत मूल्ये: श्रेणीबाहेरील संख्या, महाकाय पेलोड, रिकाम्या स्ट्रिंग्ज
-
"अॅडव्हर्सरियल-इश" इनपुट जे तुमच्या प्रशिक्षण संचासारखे दिसत नाहीत परंतु वापरकर्त्यांसारखे दिसतात
एलएलएमसाठी, हे समाविष्ट करा:
-
त्वरित इंजेक्शन प्रयत्न (वापरकर्त्याच्या मजकुरात लपलेल्या सूचना)
-
"मागील सूचनांकडे दुर्लक्ष करा" नमुने
-
टूल-यूज एज केसेस (खराब URL, टाइमआउट, आंशिक आउटपुट)
दृढता ही विश्वासार्हतेच्या गुणधर्मांपैकी एक आहे जी घटना घडेपर्यंत अमूर्त वाटते. नंतर ती... खूप मूर्त बनते [1].
७) पक्षपात, निष्पक्षता आणि ते कोणासाठी काम करते ⚖️
एक मॉडेल एकूणच "अचूक" असू शकते परंतु विशिष्ट गटांसाठी ते सातत्याने वाईट असू शकते. ही एक छोटी समस्या नाही. ही उत्पादन आणि विश्वासाची समस्या आहे.
व्यावहारिक पावले:
-
अर्थपूर्ण विभागांनुसार कामगिरीचे मूल्यांकन करा (मापन करण्यासाठी कायदेशीर/नैतिकदृष्ट्या योग्य)
-
गटांमधील त्रुटी दर आणि कॅलिब्रेशनची तुलना करा
-
संवेदनशील गुणधर्म एन्कोड करू शकणार्या प्रॉक्सी वैशिष्ट्यांसाठी (झिप कोड, डिव्हाइस प्रकार, भाषा) चाचणी करा
जर तुम्ही हे कुठेतरी दस्तऐवजीकरण करत नसाल, तर तुम्ही मुळात भविष्यातील लोकांना नकाशाशिवाय विश्वास संकट डीबग करण्यास सांगत आहात. मॉडेल कार्ड हे मांडण्यासाठी एक ठोस जागा आहे [2], आणि NIST ची विश्वासार्हता फ्रेमिंग तुम्हाला "चांगल्या" मध्ये काय समाविष्ट असावे याची एक मजबूत चेकलिस्ट देते [1].
८) सुरक्षा आणि सुरक्षितता चाचणी (विशेषतः एलएलएमसाठी) 🛡️
जर तुमचे मॉडेल कंटेंट जनरेट करू शकत असेल, तर तुम्ही अचूकतेपेक्षा जास्त चाचणी करत आहात. तुम्ही वर्तनाची चाचणी करत आहात.
यासाठी चाचण्या समाविष्ट करा:
-
परवानगी नसलेला कंटेंट जनरेशन (धोरण उल्लंघन)
-
गोपनीयतेची गळती (यामुळे गुपिते प्रतिध्वनीत होतात का?)
-
उच्च-भाग असलेल्या क्षेत्रांमध्ये भ्रम
-
जास्त नकार (मॉडेल सामान्य विनंत्या नाकारते)
-
विषारीपणा आणि छळाचे परिणाम
-
प्रॉम्प्ट इंजेक्शनद्वारे डेटा एक्सफिल्टेशनचा प्रयत्न
एक ग्राउंड दृष्टिकोन असा आहे: धोरण नियम परिभाषित करा → चाचणी प्रॉम्प्ट तयार करा → मानवी + स्वयंचलित तपासणीसह आउटपुट स्कोअर करा → प्रत्येक वेळी काहीही बदलले की ते चालवा. तो "प्रत्येक वेळी" भाग म्हणजे भाडे.
हे जीवनचक्र जोखीम मानसिकतेमध्ये व्यवस्थित बसते: शासन करा, संदर्भ नकाशा करा, मोजा, व्यवस्थापित करा, पुनरावृत्ती करा [1].
९) ऑनलाइन चाचणी: टप्प्याटप्प्याने रोलआउट्स (जिथे सत्य राहते) 🚀
ऑफलाइन चाचण्या आवश्यक आहेत. ऑनलाइन एक्सपोजर म्हणजे जिथे वास्तव चिखलाने भरलेले बूट घालून दिसते.
तुम्हाला फॅन्सी असण्याची गरज नाही. तुम्हाला फक्त शिस्तबद्ध असण्याची गरज आहे:
-
शॅडो मोडमध्ये चालवा (मॉडेल चालते, वापरकर्त्यांवर परिणाम करत नाही)
-
हळूहळू रोलआउट (प्रथम कमी ट्रॅफिक, चांगले असल्यास वाढवा)
-
परिणाम आणि घटनांचा मागोवा घ्या (तक्रारी, वाढ, धोरणातील अपयश)
तुमचा संपूर्ण वापरकर्ता बेस [1] करण्यापूर्वी तुम्हाला अपयश शोधण्याचा नियंत्रित मार्ग हवा आहे
१०) तैनातीनंतर देखरेख: वाहून जाणे, क्षय होणे आणि शांत अपयश 📉👀
तुम्ही ज्या मॉडेलची चाचणी केली आहे ते मॉडेल तुम्हाला जगावे लागत नाही. डेटा बदलतो. वापरकर्ते बदलतात. जग बदलते. पहाटे २ वाजता पाईपलाईन तुटते. तुम्हाला माहिती आहेच कसे आहे..
मॉनिटर:
-
इनपुट डेटा ड्रिफ्ट (स्कीमा बदल, गहाळता, वितरण बदल)
-
आउटपुट ड्रिफ्ट (वर्ग शिल्लक बदल, स्कोअर बदल)
-
कामगिरी प्रॉक्सी (कारण लेबल विलंब वास्तविक आहेत)
-
अभिप्राय सिग्नल (थंब्स डाउन, री-एडिट, एस्केलेशन)
-
सेगमेंट-लेव्हल रिग्रेशन्स (सायलेंट किलर्स)
आणि अलर्ट थ्रेशोल्ड सेट करा जे खूप हलणारे नसतील. सतत ओरडणारा मॉनिटर दुर्लक्षित केला जातो - शहरातील कार अलार्मसारखा.
जर तुम्हाला विश्वासार्हतेची काळजी असेल तर हे "मॉनिटर + वेळेवर सुधारणा" लूप पर्यायी नाही [1].
११) तुम्ही कॉपी करू शकता असा व्यावहारिक कार्यप्रवाह 🧩
येथे एक साधा लूप आहे जो स्केल करतो:
-
यश + अपयश पद्धती परिभाषित करा (खर्च/विलंब/सुरक्षितता समाविष्ट करा) [1]
-
डेटासेट तयार करा:
-
सोनेरी सेट
-
एज-केस पॅक
-
अलीकडील वास्तविक नमुने (गोपनीयतेसाठी सुरक्षित)
-
-
मेट्रिक्स निवडा:
-
कार्य मेट्रिक्स (F1, MAE, विजय-दर) [4][5]
-
सुरक्षा मेट्रिक्स (पॉलिसी पास रेट) [1][5]
-
ऑपरेशनल मेट्रिक्स (विलंब, खर्च)
-
-
मूल्यांकन हार्नेस तयार करा (प्रत्येक मॉडेल/त्वरीत बदलावर चालते) [4][5]
-
ताण चाचण्या + प्रतिकूल-इश चाचण्या जोडा [1][5]
-
नमुन्यासाठी मानवी पुनरावलोकन (विशेषतः एलएलएम आउटपुटसाठी) [5]
-
शॅडोद्वारे शिप + स्टेज्ड रोलआउट [1]
-
निरीक्षण + सतर्कता + शिस्तीने पुन्हा प्रशिक्षण द्या [1]
-
दस्तऐवजाचा परिणाम मॉडेल-कार्ड शैलीतील लेखनात होतो [2][3]
प्रशिक्षण आकर्षक आहे. चाचणी भाडेपट्टा आहे.
१२) समारोपाच्या नोंदी + जलद सारांश 🧠✨
एआय मॉडेल्सची चाचणी कशी करायची याबद्दल काही गोष्टी आठवत असतील तर :
-
प्रातिनिधिक चाचणी डेटा वापरा आणि गळती टाळा [4]
-
वास्तविक परिणामांशी जोडलेले अनेक मेट्रिक्स निवडा
-
एलएलएमसाठी, मानवी पुनरावलोकन + विन-रेट शैली तुलनांवर [5]
-
चाचणीची मजबूती - असामान्य इनपुट हे सामान्य इनपुट असतात [1]
-
मॉडेल्स वाहून जातात आणि पाइपलाइन तुटतात म्हणून सुरक्षितपणे रोल आउट करा आणि निरीक्षण करा [1]
-
तुम्ही काय केले आणि काय चाचणी केली नाही याचे दस्तऐवजीकरण करा (अस्वस्थ पण शक्तिशाली) [2][3]
चाचणी म्हणजे फक्त "ते काम करते हे सिद्ध करणे" नाही. "तुमच्या वापरकर्त्यांपूर्वी ते कसे अयशस्वी होते ते शोधा." आणि हो, ते कमी सेक्सी आहे - परंतु जेव्हा गोष्टी डळमळीत होतात तेव्हा ते तुमच्या सिस्टमला उभे ठेवते... 🧱🙂
वारंवार विचारले जाणारे प्रश्न
वापरकर्त्याच्या वास्तविक गरजा पूर्ण करण्यासाठी एआय मॉडेल्सची चाचणी करण्याचा सर्वोत्तम मार्ग
"चांगले" हे केवळ लीडरबोर्ड मेट्रिकच्या आधारावर नव्हे तर वास्तविक वापरकर्त्याच्या आणि मॉडेल ज्या निर्णयाला समर्थन देते त्या आधारावर परिभाषित करून सुरुवात करा. सर्वात जास्त किमतीच्या अपयश मोड (खोटे सकारात्मक विरुद्ध खोटे नकारात्मक) ओळखा आणि विलंब, खर्च, गोपनीयता आणि स्पष्टीकरणक्षमता यासारख्या कठीण मर्यादा स्पष्ट करा. नंतर त्या परिणामांना प्रतिबिंबित करणारे मेट्रिक्स आणि चाचणी प्रकरणे निवडा. हे तुम्हाला "सुंदर मेट्रिक" ऑप्टिमायझ करण्यापासून रोखते जे कधीही चांगल्या उत्पादनात रूपांतरित होत नाही.
मूल्यांकन मापदंड निवडण्यापूर्वी यशाचे निकष परिभाषित करणे
वापरकर्ता कोण आहे, मॉडेल कोणत्या निर्णयाला समर्थन देण्यासाठी आहे आणि उत्पादनात "सर्वात वाईट परिस्थितीत अपयश" कसे दिसते ते लिहा. स्वीकारार्ह विलंब आणि प्रति विनंती खर्च यासारख्या ऑपरेशनल मर्यादा, तसेच गोपनीयता नियम आणि सुरक्षा धोरणे यासारख्या प्रशासनाच्या गरजा जोडा. एकदा ते स्पष्ट झाले की, मेट्रिक्स योग्य गोष्ट मोजण्याचा एक मार्ग बनतात. त्या फ्रेमवर्कशिवाय, संघ जे मोजणे सोपे आहे ते ऑप्टिमायझेशनकडे वळतात.
मॉडेल मूल्यांकनात डेटा गळती आणि अपघाती फसवणूक रोखणे
ट्रेन/व्हॅलिडेशन/टेस्ट स्प्लिट्स स्थिर ठेवा आणि स्प्लिट लॉजिकचे दस्तऐवजीकरण करा जेणेकरून निकाल पुनरुत्पादित करता येतील. स्प्लिट्समध्ये डुप्लिकेट आणि जवळजवळ डुप्लिकेट सक्रियपणे ब्लॉक करा (समान वापरकर्ता, दस्तऐवज, उत्पादन किंवा पुनरावृत्ती केलेले पॅटर्न). टाइमस्टॅम्प किंवा पोस्ट-इव्हेंट फील्डद्वारे इनपुटमध्ये "भविष्यातील" माहिती सरकते अशा वैशिष्ट्य गळतीकडे लक्ष ठेवा. एक मजबूत बेसलाइन (अगदी डमी अंदाजक देखील) तुम्हाला आवाज साजरा करताना लक्षात घेण्यास मदत करते.
बदलांमध्ये चाचण्या पुनरावृत्ती करण्यायोग्य राहण्यासाठी मूल्यांकन हार्नेसमध्ये काय समाविष्ट असावे
एक व्यावहारिक हार्नेस समान डेटासेट आणि स्कोअरिंग नियमांचा वापर करून प्रत्येक मॉडेल, प्रॉम्प्ट किंवा धोरण बदलावर तुलनात्मक चाचण्या पुन्हा चालवतो. त्यात सामान्यतः रिग्रेशन सूट, स्पष्ट मेट्रिक्स डॅशबोर्ड आणि ट्रेसेबिलिटीसाठी संग्रहित कॉन्फिग आणि आर्टिफॅक्ट समाविष्ट असतात. LLM सिस्टमसाठी, त्याला प्रॉम्प्टचा एक स्थिर "गोल्डन सेट" आणि एज-केस पॅक देखील आवश्यक असतो. ध्येय "पुन्हा चालवा नोटबुक आणि प्रार्थना करा" असे नाही तर "बटण दाबा → तुलनात्मक निकाल" आहे
अचूकतेच्या पलीकडे असलेल्या एआय मॉडेल्सची चाचणी करण्यासाठी मेट्रिक्स
एकाधिक मेट्रिक्स वापरा, कारण एकच संख्या महत्त्वाची तडजोड लपवू शकते. वर्गीकरणासाठी, सेगमेंटनुसार थ्रेशोल्ड ट्यूनिंग आणि गोंधळ मॅट्रिक्ससह अचूकता/रिकॉल/F1 जोडा. रिग्रेशनसाठी, तुम्हाला त्रुटी कशा दंडायच्या आहेत यावर आधारित MAE किंवा RMSE निवडा आणि आउटपुट स्कोअरसारखे कार्य करतात तेव्हा कॅलिब्रेशन-शैली तपासण्या जोडा. रँकिंगसाठी, असमान कामगिरी पकडण्यासाठी NDCG/MAP/MRR आणि स्लाईस बाय हेड विरुद्ध टेल क्वेरी वापरा.
स्वयंचलित मेट्रिक्स कमी पडतात तेव्हा LLM आउटपुटचे मूल्यांकन करणे
ते केवळ मजकूर समानता म्हणून नव्हे तर प्रॉम्प्ट-आणि-पॉलिसी सिस्टम आणि स्कोअर वर्तन म्हणून हाताळा. अनेक संघ मानवी मूल्यांकनाला जोडीनुसार प्राधान्य (A/B विन-रेट) सह एकत्रित करतात, तसेच "योग्य फील्ड काढली का" किंवा "नीतीचे पालन केले का" यासारख्या कार्य-आधारित तपासण्या एकत्र करतात. स्वयंचलित मजकूर मेट्रिक्स अरुंद प्रकरणांमध्ये मदत करू शकतात, परंतु वापरकर्त्यांना काय आवडते ते ते अनेकदा चुकवतात. स्पष्ट रूब्रिक्स आणि रिग्रेशन सूट सहसा एकाच स्कोअरपेक्षा जास्त महत्त्वाचे असतात.
आवाजाच्या इनपुटवर मॉडेल बिघडू नये म्हणून मजबूती चाचण्या कराव्यात
टायपिंगच्या चुका, गहाळ मूल्ये, विचित्र स्वरूपण आणि नॉन-स्टँडर्ड युनिकोड वापरून मॉडेलची चाचणी घ्या, कारण वास्तविक वापरकर्ते क्वचितच नीटनेटके असतात. नवीन श्रेणी, अपभाषा, सेन्सर्स किंवा भाषा नमुने यासारखे वितरण शिफ्ट केसेस जोडा. पृष्ठभागावरील ठिसूळ वर्तनासाठी अत्यंत मूल्ये (रिक्त स्ट्रिंग, प्रचंड पेलोड, श्रेणीबाहेरील संख्या) समाविष्ट करा. LLM साठी, प्रॉम्प्ट इंजेक्शन पॅटर्न आणि टाइमआउट किंवा आंशिक आउटपुट सारख्या टूल-वापर अपयशांची देखील चाचणी करा.
सिद्धांतात न अडकता पक्षपात आणि निष्पक्षतेचे प्रश्न तपासणे
अर्थपूर्ण स्लाइसवरील कामगिरीचे मूल्यांकन करा आणि कायदेशीर आणि नैतिकदृष्ट्या योग्य असलेल्या गटांमधील त्रुटी दर आणि कॅलिब्रेशनची तुलना करा. संवेदनशील गुणधर्मांना अप्रत्यक्षपणे एन्कोड करू शकणारी प्रॉक्सी वैशिष्ट्ये (जसे की झिप कोड, डिव्हाइस प्रकार किंवा भाषा) शोधा. विशिष्ट गटांसाठी सातत्याने अपयशी ठरताना मॉडेल "एकंदरीत अचूक" दिसू शकते. तुम्ही काय मोजले आणि काय नाही ते दस्तऐवजीकरण करा, जेणेकरून भविष्यातील बदल शांतपणे प्रतिगमन पुन्हा सादर करणार नाहीत.
जनरेटिव्ह एआय आणि एलएलएम सिस्टीमसाठी सुरक्षा आणि सुरक्षितता चाचण्यांचा समावेश
परवानगी नसलेली सामग्री निर्मिती, गोपनीयता गळती, उच्च-दाब असलेल्या डोमेनमध्ये भ्रम आणि मॉडेल सामान्य विनंत्या अवरोधित करते तेव्हा अति-नकार यासाठी चाचणी. प्रॉम्प्ट इंजेक्शन आणि डेटा एक्सफिल्टरेशन प्रयत्नांचा समावेश करा, विशेषतः जेव्हा सिस्टम टूल्स वापरते किंवा सामग्री पुनर्प्राप्त करते. एक ग्राउंडेड वर्कफ्लो म्हणजे: धोरण नियम परिभाषित करणे, चाचणी प्रॉम्प्ट सेट तयार करणे, मानवी प्लस ऑटोमेटेड चेकसह स्कोअर करणे आणि जेव्हा प्रॉम्प्ट, डेटा किंवा धोरणे बदलतात तेव्हा ते पुन्हा चालवा. सुसंगतता म्हणजे तुम्ही दिलेले भाडे.
लाँच झाल्यानंतर, ड्रिफ्ट आणि घटना पकडण्यासाठी एआय मॉडेल्सची निर्मिती आणि देखरेख करणे
तुमचा पूर्ण वापरकर्ता बेस येण्यापूर्वीच अपयश शोधण्यासाठी शॅडो मोड आणि हळूहळू ट्रॅफिक रॅम्प सारख्या स्टेज्ड रोलआउट पॅटर्नचा वापर करा. इनपुट ड्रिफ्ट (स्कीमा बदल, गहाळपणा, वितरण शिफ्ट) आणि आउटपुट ड्रिफ्ट (स्कोअर शिफ्ट, क्लास बॅलन्स शिफ्ट), तसेच लेटन्सी आणि खर्च यासारख्या ऑपरेशनल हेल्थचे निरीक्षण करा. संपादने, वाढ आणि तक्रारी यासारख्या फीडबॅक सिग्नलचा मागोवा घ्या आणि सेगमेंट-लेव्हल रिग्रेशन पहा. जेव्हा काहीही बदलते तेव्हा तेच हार्नेस पुन्हा चालवा आणि सतत निरीक्षण करत रहा.
संदर्भ
[1] NIST - आर्टिफिशियल इंटेलिजेंस रिस्क मॅनेजमेंट फ्रेमवर्क (AI RMF 1.0) (PDF)
[2] मिशेल आणि इतर - “मॉडेल रिपोर्टिंगसाठी मॉडेल कार्ड” (arXiv:1810.03993)
[3] गेब्रू आणि इतर - “डेटासेट्ससाठी डेटाशीट्स” (arXiv:1803.09010)
[4] सायकिट-लर्न - “मॉडेल निवड आणि मूल्यांकन” दस्तऐवजीकरण
[5] लियांग आणि इतर - “भाषा मॉडेल्सचे समग्र मूल्यांकन” (arXiv:2211.09110)