एआय प्रीप्रोसेसिंग म्हणजे काय?

थोडक्यात उत्तर: एआय प्रीप्रोसेसिंग ही पुनरावृत्ती करता येण्याजोग्या पायऱ्यांचा एक संच आहे जो कच्चा, उच्च-वेरियंस डेटा सुसंगत मॉडेल इनपुटमध्ये बदलतो, ज्यामध्ये क्लीनिंग, एन्कोडिंग, स्केलिंग, टोकनायझिंग आणि इमेज ट्रान्सफॉर्मेशन यांचा समावेश आहे. हे महत्त्वाचे आहे कारण जर प्रशिक्षण इनपुट आणि उत्पादन इनपुट वेगळे असतील तर मॉडेल शांतपणे अपयशी ठरू शकतात. जर एखाद्या पायरीने पॅरामीटर्स "शिकले" तर गळती टाळण्यासाठी ते फक्त प्रशिक्षण डेटावर बसवा.

एआय प्रीप्रोसेसिंग म्हणजे प्रशिक्षणापूर्वी (आणि कधीकधी दरम्यान) तुम्ही कच्च्या डेटावर जे काही करता ते म्हणजे मॉडेल प्रत्यक्षात त्यातून शिकू शकेल. फक्त "स्वच्छता" नाही. ते म्हणजे डेटा साफ करणे, आकार देणे, स्केलिंग करणे, एन्कोडिंग करणे, वाढवणे आणि पॅकेजिंग करणे जे एका सुसंगत प्रतिनिधित्वात बदलते जे नंतर तुमच्या मॉडेलला शांतपणे ट्रिप करणार नाही. [1]

महत्वाचे मुद्दे:

व्याख्या : प्रीप्रोसेसिंग रॉ टेबल्स, टेक्स्ट, इमेजेस आणि लॉग्स मॉडेल-रेडी फीचर्समध्ये रूपांतरित करते.

सुसंगतता : जुळणी अपयश टाळण्यासाठी प्रशिक्षण आणि अनुमानादरम्यान समान रूपांतरे लागू करा.

गळती : फक्त प्रशिक्षण डेटावर स्केलर, एन्कोडर आणि टोकनायझर बसवा.

पुनरुत्पादनक्षमता : तदर्थ नोटबुक सेल अनुक्रमांऐवजी निरीक्षण करण्यायोग्य आकडेवारीसह पाइपलाइन तयार करा.

उत्पादन देखरेख : स्क्यू आणि ड्रिफ्टचा मागोवा घ्या जेणेकरून इनपुट हळूहळू कामगिरी खराब करू नयेत.

या लेखानंतर तुम्हाला वाचायला आवडतील असे लेख:

🔗 वास्तविक कामगिरीसाठी एआय मॉडेल्सची चाचणी कशी करावी
अचूकता, मजबूती आणि पूर्वाग्रहाचे त्वरित मूल्यांकन करण्यासाठी व्यावहारिक पद्धती.

🔗 टेक्स्ट-टू-स्पीच एआय आहे का आणि ते कसे काम करते?
TTS ची मूलतत्त्वे, मुख्य उपयोग आणि आजच्या सामान्य मर्यादा स्पष्ट करतो.

🔗 आज एआय कर्सिव्ह हस्तलेखन अचूकपणे वाचू शकते का?
ओळख आव्हाने, सर्वोत्तम साधने आणि अचूकता टिप्स समाविष्ट करते.

🔗 सामान्य कामांमध्ये एआय किती अचूक आहे?
अचूकता घटक, बेंचमार्क आणि वास्तविक जगातील विश्वासार्हता यांचे विघटन करते.

साध्या भाषेत एआय प्रीप्रोसेसिंग (आणि ते काय नाही) 🤝

एआय प्रीप्रोसेसिंग म्हणजे कच्च्या इनपुटचे (टेबल, मजकूर, प्रतिमा, लॉग) मॉडेल-रेडी वैशिष्ट्यांमध्ये रूपांतर करणे. जर कच्चा डेटा गोंधळलेला गॅरेज असेल, तर प्रीप्रोसेसिंग म्हणजे तुम्ही बॉक्स लेबल करणे, तुटलेली कचरा टाकणे आणि गोष्टी रचणे जेणेकरून तुम्ही प्रत्यक्षात दुखापत न होता चालता येईल.

ते स्वतः मॉडेल नाही. ते असे घटक आहेत जे मॉडेलला शक्य करतात:

श्रेणींचे संख्यांमध्ये रूपांतर करणे (एक-गरम, क्रमवाचक, इ.) [1]
मोठ्या संख्यात्मक श्रेणींना योग्य श्रेणींमध्ये स्केल करणे (मानकीकरण, किमान-कमाल, इ.) [1]
इनपुट आयडीमध्ये मजकूर टोकनाइझ करणे (आणि सहसा लक्ष वेधण्यासाठी एक मुखवटा) [3]
प्रतिमांचे आकार बदलणे/क्रॉप करणे आणि डिटर्मिनिस्टिक विरुद्ध रँडम ट्रान्सफॉर्म्स योग्यरित्या लागू करणे [4]
प्रशिक्षण आणि "वास्तविक जीवनातील" इनपुट सूक्ष्म मार्गांनी वेगळे होऊ नयेत म्हणून पुनरावृत्ती करता येण्याजोग्या पाइपलाइन तयार करणे [2]

एक छोटीशी व्यावहारिक टीप: "प्रीप्रोसेसिंग" मध्ये मॉडेल इनपुट पाहण्यापूर्वी जे काही सातत्याने घडते ते . काही संघ हे "फीचर इंजिनिअरिंग" विरुद्ध "डेटा क्लीनिंग" मध्ये विभागतात, परंतु वास्तविक जीवनात त्या रेषा अस्पष्ट होतात.

लोकांच्या कबूल करण्यापेक्षा एआय प्रीप्रोसेसिंग का जास्त महत्त्वाचे आहे 😬

मॉडेल हा पॅटर्न-मॅचर असतो, माइंड रीडर नसतो. जर तुमचे इनपुट विसंगत असतील, तर मॉडेल विसंगत नियम शिकतो. ते तात्विक नाही, ते वेदनादायकपणे शब्दशः आहे.

पूर्व-प्रक्रिया केल्याने तुम्हाला मदत होते:

अंदाजक विश्वासार्हपणे वापरू शकतील अशा प्रतिनिधित्वांमध्ये वैशिष्ट्ये समाविष्ट करून शिक्षण स्थिरता सुधारा
(विचित्र कलाकृती लक्षात ठेवण्याऐवजी) गोंधळलेल्या वास्तवाला एखाद्या मॉडेलने सामान्यीकृत करू शकणाऱ्या गोष्टीसारखे बनवून आवाज कमी करा
गळती आणि ट्रेन/सर्व्हिस मिसमेच (ज्या प्रकारचा व्हॅलिडेशनमध्ये "आश्चर्यकारक" दिसतो आणि नंतर उत्पादनात फेसप्लांट्स) सारख्या सायलेंट फेल्युअर मोड्सना प्रतिबंधित करा
पुनरावृत्ती करण्यायोग्य ट्रान्सफॉर्म्स आठवड्याच्या प्रत्येक दिवशी नोटबुक स्पॅगेटीपेक्षा जास्त असल्याने पुनरावृत्तीचा वेग वाढवा

तसेच, बरेच "मॉडेल परफॉर्मन्स" प्रत्यक्षात येथूनच येतात. जसे की... आश्चर्यकारकपणे बरेच. कधीकधी ते अन्याय्य वाटते, पण ते वास्तव आहे 🙃

चांगली एआय प्रीप्रोसेसिंग पाइपलाइन कशामुळे बनते ✅

प्रीप्रोसेसिंगच्या "चांगल्या आवृत्तीत" सहसा हे गुण असतात:

पुनरुत्पादनक्षम : समान इनपुट → समान आउटपुट (हेतुपुरस्सर वाढ नसल्यास गूढ यादृच्छिकता नाही).
ट्रेन-सर्व्हिसिंग सुसंगतता : तुम्ही प्रशिक्षणाच्या वेळी जे काही करता ते अनुमानाच्या वेळी त्याच प्रकारे लागू केले जाते (समान फिट केलेले पॅरामीटर्स, समान श्रेणी नकाशे, समान टोकनायझर कॉन्फिगरेशन इ.). [2]
गळती-सुरक्षित : मूल्यांकन/चाचणीतील काहीही कोणत्याही फिट स्टेपवर परिणाम करत नाही. (या ट्रॅपबद्दल थोड्या वेळाने अधिक माहिती.) [2]
निरीक्षणीय : तुम्ही काय बदलले आहे ते तपासू शकता (वैशिष्ट्य आकडेवारी, गहाळता, श्रेणी संख्या) त्यामुळे डीबगिंग व्हायब्स-आधारित अभियांत्रिकी नाही.

final_v7_really_final_ok नावाच्या नोटबुक सेल्सचा ढीग असेल तर ... ते कसे आहे हे तुम्हाला माहिती आहे. ते काम करत नाही तोपर्यंत ते काम करते 😬

एआय प्रीप्रोसेसिंगचे मुख्य घटक 🧱

प्रीप्रोसेसिंग म्हणजे तुम्ही पाइपलाइनमध्ये एकत्रित केलेल्या बिल्डिंग ब्लॉक्सचा संच समजा.

१) स्वच्छता आणि प्रमाणीकरण 🧼

ठराविक कामे:

डुप्लिकेट काढून टाका
गहाळ मूल्ये हाताळा (गहाळपणा वगळा, आरोप करा किंवा स्पष्टपणे दर्शवा)
प्रकार, युनिट्स आणि रेंजेस लागू करा
विकृत इनपुट शोधा
मजकूर स्वरूपांचे मानकीकरण करा (मोकळी जागा, केसिंग नियम, युनिकोड विचित्रता)

हा भाग ग्लॅमरस नाहीये, पण तो अत्यंत मूर्ख चुकांना प्रतिबंधित करतो. मी हे प्रेमाने म्हणतो.

२) वर्गीकृत डेटा एन्कोड करणे 🔤

"red" किंवा "premium_user" सारख्या कच्च्या स्ट्रिंग्ज थेट वापरू शकत नाहीत .

सामान्य पद्धती:

एक-गरम एन्कोडिंग (श्रेणी → बायनरी कॉलम) [1]
ऑर्डिनल एन्कोडिंग (श्रेणी → पूर्णांक आयडी) [1]

कोणता महत्त्वाचे नाही - तर मॅपिंग सुसंगत राहते आणि प्रशिक्षण आणि अनुमान यांच्यामध्ये "आकार बदलत नाही" हे महत्त्वाचे आहे. अशाप्रकारे तुम्हाला असे मॉडेल मिळते जे ऑफलाइन चांगले दिसते आणि ऑनलाइन झपाटलेले काम करते. [2]

३) वैशिष्ट्यांचे स्केलिंग आणि सामान्यीकरण 📏

जेव्हा वैशिष्ट्ये खूप वेगवेगळ्या श्रेणींमध्ये असतात तेव्हा स्केलिंग महत्त्वाचे असते.

दोन क्लासिक्स:

मानकीकरण : सरासरी काढून टाका आणि युनिट भिन्नतेवर मोजा [1]
किमान-कमाल स्केलिंग : प्रत्येक वैशिष्ट्य एका निर्दिष्ट श्रेणीमध्ये स्केल करा [1]

जरी तुम्ही "बहुतेकदा सामना करणारे" मॉडेल वापरत असलात तरी, स्केलिंगमुळे पाइपलाइन्सना तर्क करणे सोपे होते - आणि चुकून तुटणे कठीण होते.

४) फीचर इंजिनिअरिंग (उर्फ उपयुक्त फसवणूक) 🧪

येथे तुम्ही चांगले सिग्नल तयार करून मॉडेलचे काम सोपे करता:

गुणोत्तर (क्लिक / इंप्रेशन)
खिडक्या फिरवत आहेत (गेल्या N दिवसात)
संख्या (प्रति वापरकर्ता कार्यक्रम)
हेवी-टेल्ड डिस्ट्रिब्युशनसाठी लॉग ट्रान्सफॉर्म्स

इथे एक कला आहे. कधीकधी तुम्ही एखादे वैशिष्ट्य तयार कराल, अभिमान वाटेल... आणि ते काहीही करत नाही. किंवा त्याहूनही वाईट म्हणजे ते दुखावते. ते सामान्य आहे. वैशिष्ट्यांशी भावनिकरित्या जोडले जाऊ नका - ते तुमच्यावर प्रेम करत नाहीत 😅

५) डेटा योग्य पद्धतीने विभाजित करणे ✂️

हे स्पष्ट वाटते जोपर्यंत ते दिसत नाही:

आयआयडी डेटासाठी यादृच्छिक विभाजने
वेळ मालिकेसाठी वेळ-आधारित विभाजने
जेव्हा घटक पुनरावृत्ती करतात तेव्हा गटबद्ध विभाजने (वापरकर्ते, उपकरणे, रुग्ण)

आणि महत्त्वाचे म्हणजे: डेटामधून शिकणारे प्रीप्रोसेसिंग बसवण्यापूर्वी विभाजन करा . जर तुमचा प्रीप्रोसेसिंग स्टेप पॅरामीटर्स (जसे की साधन, शब्दसंग्रह, श्रेणी नकाशे) "शिकत" असेल, तर ते फक्त प्रशिक्षणातूनच शिकले पाहिजे. [2]

डेटा प्रकारानुसार एआय प्रीप्रोसेसिंग: टॅब्युलर, मजकूर, प्रतिमा 🎛️

तुम्ही मॉडेलला काय खायला देता यावर अवलंबून प्रीप्रोसेसिंगचा आकार बदलतो.

सारणी डेटा (स्प्रेडशीट, लॉग, डेटाबेस) 📊

सामान्य पायऱ्या:

गहाळ मूल्य धोरण
वर्गीकृत एन्कोडिंग [1]
संख्यात्मक स्तंभांचे स्केलिंग [1]
आउटलायर हँडलिंग (डोमेन नियम बहुतेक वेळा "रँडम क्लिपिंग" पेक्षा जास्त असतात)
साधित वैशिष्ट्ये (एकत्रीकरण, लॅग्ज, रोलिंग आकडेवारी)

व्यावहारिक सल्ला: स्तंभ गट स्पष्टपणे परिभाषित करा (अंकीय विरुद्ध वर्गीय विरुद्ध ओळखकर्ता). तुमचा भविष्यातील व्यक्ती तुमचे आभार मानेल.

मजकूर डेटा (NLP) 📝

मजकूर पूर्वप्रक्रियेत अनेकदा हे समाविष्ट असते:

टोकन/सबवर्डमध्ये टोकनीकरण
इनपुट आयडीमध्ये रूपांतरण
पॅडिंग/ट्रंकेशन
बॅचिंगसाठी लक्ष वेधण्यासाठी मास्क तयार करणे

त्रास कमी करणारा एक छोटासा नियम: ट्रान्सफॉर्मर-आधारित सेटअपसाठी, मॉडेलच्या अपेक्षित टोकनायझर सेटिंग्जचे अनुसरण करा आणि कारण असल्याशिवाय फ्रीस्टाइल करू नका. फ्रीस्टाइलिंग म्हणजे तुम्हाला "ते ट्रेन करते पण ते विचित्र आहे" असे कसे वाटते ते सांगणे

प्रतिमा (संगणक दृष्टी) 🖼️

सामान्य पूर्वप्रक्रिया:

आकार बदला / सुसंगत आकारांमध्ये क्रॉप करा
मूल्यांकनासाठी निर्धारक परिवर्तने
प्रशिक्षण वाढीसाठी यादृच्छिक रूपांतरणे (उदा., यादृच्छिक क्रॉपिंग) [4]

लोक एक गोष्ट चुकवतात: "यादृच्छिक रूपांतरणे" ही फक्त एक भावना नाहीयेत - प्रत्येक वेळी कॉल केल्यावर ते शब्दशः पॅरामीटर्सचे नमुने घेतात. विविधतेचे प्रशिक्षण देण्यासाठी उत्तम, जर तुम्ही यादृच्छिकता बंद करायला विसरलात तर मूल्यांकनासाठी भयानक. [4]

प्रत्येकजण ज्या सापळ्यात अडकतो: डेटा गळती 🕳️🐍

मूल्यांकन डेटामधील माहिती प्रशिक्षणात घुसते तेव्हा गळती होते - बहुतेकदा प्रीप्रोसेसिंगद्वारे. ते तुमचे मॉडेल प्रमाणीकरणादरम्यान जादुई बनवू शकते आणि नंतर वास्तविक जगात तुम्हाला निराश करू शकते.

सामान्य गळतीचे नमुने:

पूर्ण-डेटासेट आकडेवारी वापरून स्केलिंग (फक्त प्रशिक्षणाऐवजी) [2]
ट्रेन+टेस्ट एकत्र वापरून श्रेणी नकाशे तयार करणे [2]
चाचणी संच "पाहणारा" कोणताही fit() किंवा fit_transform()

अंगठ्याचा नियम (सोपा, क्रूर, प्रभावी):

फिट असलेली कोणतीही गोष्ट फक्त प्रशिक्षणादरम्यान फिट असावी.
मग तुम्ही त्या बसवलेल्या ट्रान्सफॉर्मरचा वापर करून व्हॅलिडेशन/टेस्ट ट्रान्सफॉर्म करा

आणि जर तुम्हाला "ते किती वाईट असू शकते?" असे प्रश्न विचारायचे असतील तर - गट-चेक: सायकिट-लर्नचे स्वतःचे डॉक्स गळतीचे उदाहरण दाखवतात जिथे चुकीचा प्रीप्रोसेसिंग ऑर्डर यादृच्छिक लक्ष्यांवर 0.76 0.5 . चुकीची गळती अशीच दिसू शकते. [2]

गोंधळाशिवाय उत्पादनात पूर्व-प्रक्रिया सुरू करणे 🏗️

बरेच मॉडेल्स उत्पादनात अपयशी ठरतात कारण ते मॉडेल "वाईट" असते असे नाही, तर इनपुट रिअॅलिटी बदलते म्हणून - किंवा तुमची पाइपलाइन बदलते म्हणून.

उत्पादन-मनाच्या पूर्व-प्रक्रियेत सहसा हे समाविष्ट असते:

जतन केलेल्या कलाकृती (एनकोडर मॅपिंग्ज, स्केलर पॅरामीटर्स, टोकनायझर कॉन्फिगरेशन) त्यामुळे अनुमान अगदी त्याच शिकलेल्या रूपांतरांचा वापर करते [2]
कठोर इनपुट करार (अपेक्षित स्तंभ/प्रकार/श्रेणी)
स्क्यू आणि ड्रिफ्टसाठी देखरेख , कारण उत्पादन डेटा राहील [5]

जर तुम्हाला ठोस व्याख्या हव्या असतील तर: Google चे व्हर्टेक्स एआय मॉडेल मॉनिटरिंग प्रशिक्षण-सेवा देणारे स्क्यू (उत्पादन वितरण प्रशिक्षणापासून विचलित होते) आणि अनुमान ड्रिफ्ट (कालांतराने उत्पादन वितरण बदलते) वेगळे करते आणि वर्गीकृत आणि संख्यात्मक वैशिष्ट्यांसाठी देखरेखीला समर्थन देते. [5]

कारण सरप्राईज महाग असतात. आणि मजेदार प्रकारचे नाही.

तुलना सारणी: सामान्य प्रीप्रोसेसिंग + मॉनिटरिंग टूल्स (आणि ते कोणासाठी आहेत) 🧰

साधन / ग्रंथालय	साठी सर्वोत्तम	किंमत	ते का काम करते (आणि थोडीशी प्रामाणिकता)
सायकिट-लर्न प्रीप्रोसेसिंग	टॅब्युलर एमएल पाइपलाइन	मोफत	सॉलिड एन्कोडर + स्केलर (वनहॉटएन्कोडर, स्टँडर्डस्केलर, इ.) आणि अंदाजे वर्तन [1]
मिठी मारणे चेहरा टोकनायझर्स	एनएलपी इनपुट तयारी	मोफत	रन/मॉडेलमध्ये सातत्याने इनपुट आयडी + अटेंशन मास्क तयार करते [3]
टॉर्चव्हिजन ट्रान्सफॉर्म्स	दृष्टी बदलते + वाढवते	मोफत	एकाच पाइपलाइनमध्ये डिटरमिनिस्टिक आणि रँडम ट्रान्सफॉर्म्स मिसळण्याचा स्वच्छ मार्ग [4]
व्हर्टेक्स एआय मॉडेल मॉनिटरिंग	उत्पादनात ड्रिफ्ट/स्क्यू डिटेक्शन	सशुल्क (क्लाउड)	जेव्हा मर्यादा ओलांडली जाते तेव्हा मॉनिटर्समध्ये स्क्यू/ड्रिफ्ट आणि अलर्टची सुविधा असते [5]

(हो, टेबलवर अजूनही मते आहेत. पण किमान ती प्रामाणिक मते आहेत 😅)

तुम्ही प्रत्यक्षात वापरू शकता अशी एक व्यावहारिक प्रीप्रोसेसिंग चेकलिस्ट 📌

प्रशिक्षणापूर्वी

इनपुट स्कीमा परिभाषित करा (प्रकार, युनिट्स, अनुमत श्रेणी)
गहाळ मूल्ये आणि डुप्लिकेट ऑडिट करा
डेटा योग्य पद्धतीने विभाजित करा (यादृच्छिक / वेळेवर आधारित / गटबद्ध)
फक्त प्रशिक्षणादरम्यान फिट प्रीप्रोसेसिंग ( फिट / फिट_ट्रान्सफॉर्म ट्रेनमध्येच राहते) [2]
प्रीप्रोसेसिंग आर्टिफॅक्ट्स सेव्ह करा जेणेकरून अनुमान त्यांचा पुन्हा वापर करू शकेल [2]

प्रशिक्षणादरम्यान

योग्य असेल तिथेच यादृच्छिक वाढ लागू करा (सहसा फक्त प्रशिक्षण विभाजन) [4]
मूल्यांकन पूर्व-प्रक्रिया निर्धारक ठेवा [4]
मॉडेल बदलांसारखे प्रीप्रोसेसिंग बदल ट्रॅक करा (कारण ते आहेत)

तैनातीपूर्वी

अनुमान समान प्रीप्रोसेसिंग मार्ग आणि कलाकृती वापरत असल्याची खात्री करा [2]
ड्रिफ्ट/स्क्यू मॉनिटरिंग सेट करा (मूलभूत वैशिष्ट्य वितरण तपासणी देखील खूप पुढे जाते) [5]

खोलवर जा: सामान्य प्रीप्रोसेसिंग चुका (आणि त्या कशा टाळायच्या) 🧯

चूक १: “मी लवकरच सर्वकाही सामान्य करेन” 😵

जर तुम्ही संपूर्ण डेटासेटवर स्केलिंग पॅरामीटर्सची गणना केली तर तुम्ही मूल्यांकन माहिती लीक करत आहात. ट्रेनमध्ये बसा, बाकीचे रूपांतर करा. [2]

चूक २: अराजकतेत वाहून जाणाऱ्या श्रेणी 🧩

जर तुमचे कॅटेगरी मॅपिंग प्रशिक्षण आणि अनुमान यांच्यात बदलले तर तुमचे मॉडेल शांतपणे जगाचे चुकीचे वाचन करू शकते. जतन केलेल्या कलाकृतींद्वारे मॅपिंग निश्चित करा. [2]

चूक ३: मूल्यांकनात यादृच्छिक वाढ 🎲

प्रशिक्षणात रँडम ट्रान्सफॉर्म्स उत्तम असतात, परंतु जेव्हा तुम्ही कामगिरी मोजण्याचा प्रयत्न करत असता तेव्हा ते "गुप्तपणे चालू" नसावेत. (रँडम म्हणजे रँडम.) [4]

अंतिम टिप्पणी 🧠✨

एआय प्रीप्रोसेसिंग ही गोंधळलेल्या वास्तवाला सुसंगत मॉडेल इनपुटमध्ये रूपांतरित करण्याची शिस्तबद्ध कला आहे. यात क्लीनिंग, एन्कोडिंग, स्केलिंग, टोकनायझेशन, इमेज ट्रान्सफॉर्म्स आणि सर्वात महत्त्वाचे म्हणजे पुनरावृत्ती करता येणारे पाइपलाइन आणि आर्टिफॅक्ट्स समाविष्ट आहेत.

प्रीप्रोसेसिंग जाणीवपूर्वक करा, अनौपचारिकपणे नाही. [2]
प्रथम विभाजित करा, फक्त प्रशिक्षणादरम्यानच रूपांतरण फिट होईल, गळती टाळा. [2]
मोडॅलिटी-योग्य प्रीप्रोसेसिंग वापरा (मजकूरासाठी टोकनायझर्स, प्रतिमांसाठी ट्रान्सफॉर्म्स). [3][4]
उत्पादनातील स्क्यू/ड्रिफ्टचे निरीक्षण करा जेणेकरून तुमचे मॉडेल हळूहळू मूर्खपणाकडे वळणार नाही. [5]

आणि जर तुम्ही कधी अडकलात, तर स्वतःला विचारा:
"जर मी उद्या नवीन डेटावर हे प्रीप्रोसेसिंग स्टेप चालवले तर ते अजूनही अर्थपूर्ण ठरेल का?"
जर उत्तर "अरे... कदाचित?" असेल, तर हा तुमचा संकेत आहे 😬

वारंवार विचारले जाणारे प्रश्न

सोप्या भाषेत सांगायचे तर एआय प्रीप्रोसेसिंग म्हणजे काय?

एआय प्रीप्रोसेसिंग ही पुनरावृत्ती करता येणारी चरणांची एक संच आहे जी गोंगाट करणारा, उच्च-प्रचलनाचा कच्चा डेटा मॉडेल शिकू शकणाऱ्या सुसंगत इनपुटमध्ये बदलतो. त्यात साफसफाई, प्रमाणीकरण, एन्कोडिंग श्रेणी, संख्यात्मक मूल्ये स्केल करणे, मजकूर टोकन करणे आणि प्रतिमा रूपांतरे लागू करणे समाविष्ट असू शकते. प्रशिक्षण आणि उत्पादन अनुमान "समान प्रकारचे" इनपुट पाहणे सुनिश्चित करणे हे ध्येय आहे, जेणेकरून मॉडेल नंतर अप्रत्याशित वर्तनात जाणार नाही.

उत्पादनात एआय प्रीप्रोसेसिंग इतके महत्त्वाचे का आहे?

प्रीप्रोसेसिंग महत्त्वाचे आहे कारण मॉडेल्स इनपुट प्रतिनिधित्वासाठी संवेदनशील असतात. जर प्रशिक्षण डेटा स्केल केला असेल, एन्कोड केला असेल, टोकनाइज केला असेल किंवा उत्पादन डेटापेक्षा वेगळ्या पद्धतीने रूपांतरित केला असेल, तर तुम्हाला ट्रेन/सर्व्हिस मिसमेच अपयश येऊ शकतात जे ऑफलाइन चांगले दिसतात परंतु शांतपणे ऑनलाइन अयशस्वी होतात. मजबूत प्रीप्रोसेसिंग पाइपलाइन आवाज कमी करतात, शिकण्याची स्थिरता सुधारतात आणि पुनरावृत्तीला गती देतात कारण तुम्ही नोटबुक स्पॅगेटी उलगडत नाही आहात.

प्रीप्रोसेसिंग करताना डेटा लीक कसा टाळायचा?

एक साधा नियम काम करतो: फिट स्टेप असलेली कोणतीही गोष्ट फक्त प्रशिक्षण डेटावर फिट असली पाहिजे. त्यामध्ये स्केलर, एन्कोडर आणि टोकनायझर्स समाविष्ट आहेत जे साधन, श्रेणी नकाशे किंवा शब्दसंग्रह यासारखे पॅरामीटर्स शिकतात. तुम्ही प्रथम विभाजित करा, प्रशिक्षण विभाजनावर फिट करा, नंतर फिट केलेल्या ट्रान्सफॉर्मरचा वापर करून प्रमाणीकरण/चाचणी रूपांतरित करा. गळतीमुळे प्रमाणीकरण "जादुई" चांगले दिसू शकते आणि नंतर उत्पादन वापरात कोलमडू शकते.

टॅब्युलर डेटासाठी सर्वात सामान्य प्रीप्रोसेसिंग पायऱ्या कोणत्या आहेत?

टॅब्युलर डेटासाठी, नेहमीच्या पाइपलाइनमध्ये क्लीनिंग आणि व्हॅलिडेशन (प्रकार, श्रेणी, गहाळ मूल्ये), कॅटेगरिकल एन्कोडिंग (एक-गरम किंवा क्रमवाचक) आणि न्यूमेरिक स्केलिंग (मानकीकरण किंवा किमान-कमाल) यांचा समावेश असतो. अनेक पाइपलाइन डोमेन-चालित फीचर इंजिनिअरिंग जसे की रेशो, रोलिंग विंडो किंवा काउंट्स जोडतात. एक व्यावहारिक सवय म्हणजे कॉलम ग्रुप्स स्पष्टपणे परिभाषित करणे (न्यूमेरिक विरुद्ध कॅटेगरिकल विरुद्ध आयडेंटिफायर्स) जेणेकरून तुमचे ट्रान्सफॉर्म्स सुसंगत राहतील.

टेक्स्ट मॉडेल्ससाठी प्रीप्रोसेसिंग कसे काम करते?

मजकूर प्रीप्रोसेसिंग म्हणजे सामान्यतः टोकनला टोकन/सबवर्डमध्ये रूपांतरित करणे, त्यांना इनपुट आयडीमध्ये रूपांतरित करणे आणि बॅचिंगसाठी पॅडिंग/ट्रंकेशन हाताळणे. अनेक ट्रान्सफॉर्मर वर्कफ्लो आयडींसोबत लक्ष वेधण्यासाठी एक मास्क देखील तयार करतात. एक सामान्य दृष्टिकोन म्हणजे मॉडेलच्या अपेक्षित टोकनायझर कॉन्फिगरेशनचा वापर करणे, इम्प्रोव्हाइजिंग करण्याऐवजी, कारण टोकनायझर सेटिंग्जमधील लहान फरकांमुळे "ते प्रशिक्षित होते परंतु ते अप्रत्याशितपणे वागते" परिणाम होऊ शकतात.

मशीन लर्निंगसाठी प्रतिमा प्रीप्रोसेसिंगमध्ये काय फरक आहे?

प्रतिमा पूर्वप्रक्रिया सहसा सुसंगत आकार आणि पिक्सेल हाताळणी सुनिश्चित करते: आकार बदलणे/क्रॉपिंग, सामान्यीकरण आणि निर्धारक आणि यादृच्छिक रूपांतरांमधील स्पष्ट विभाजन. मूल्यांकनासाठी, रूपांतरणे निर्धारक असावीत जेणेकरून मेट्रिक्स तुलनात्मक असतील. प्रशिक्षणासाठी, यादृच्छिक वाढ (यादृच्छिक पिकांसारखे) मजबूती सुधारू शकते, परंतु यादृच्छिकता जाणूनबुजून प्रशिक्षण विभाजनापर्यंत मर्यादित केली पाहिजे, मूल्यांकनादरम्यान चुकून सोडली जाऊ नये.

प्रीप्रोसेसिंग पाइपलाइन नाजूक होण्याऐवजी "चांगली" का बनते?

एक चांगली एआय प्रीप्रोसेसिंग पाइपलाइन पुनरुत्पादनक्षम, गळती-सुरक्षित आणि निरीक्षणक्षम असते. पुनरुत्पादनक्षम म्हणजे समान इनपुट समान आउटपुट तयार करते जोपर्यंत यादृच्छिकता जाणूनबुजून वाढवली जात नाही. गळती-सुरक्षित म्हणजे फिट स्टेप्स कधीही प्रमाणीकरण/चाचणीला स्पर्श करत नाहीत. निरीक्षणक्षम म्हणजे तुम्ही गहाळपणा, श्रेणी संख्या आणि वैशिष्ट्य वितरण यासारख्या आकडेवारीची तपासणी करू शकता म्हणून डीबगिंग पुराव्यावर आधारित आहे, आतड्याच्या भावनांवर नाही. पाइपलाइन प्रत्येक वेळी अॅड-हॉक नोटबुक अनुक्रमांना मागे टाकतात.

प्रशिक्षण आणि अनुमान पूर्वप्रक्रिया सुसंगत कशी ठेवावी?

स्केलर पॅरामीटर्स, एन्कोडर मॅपिंग्ज आणि टोकनायझर कॉन्फिग्स: अनुमानाच्या वेळी त्याच शिकलेल्या कलाकृतींचा पुन्हा वापर करणे ही गुरुकिल्ली आहे. तुम्हाला इनपुट कॉन्ट्रॅक्ट (अपेक्षित स्तंभ, प्रकार आणि श्रेणी) देखील हवा आहे जेणेकरून उत्पादन डेटा शांतपणे अवैध आकारांमध्ये जाऊ नये. सुसंगतता म्हणजे फक्त "समान पायऱ्या करणे" नाही - ती "समान फिट केलेल्या पॅरामीटर्स आणि मॅपिंगसह समान पायऱ्या करणे" आहे

कालांतराने ड्रिफ्ट आणि स्क्यू सारख्या प्रीप्रोसेसिंग समस्यांचे मी कसे निरीक्षण करू शकतो?

एक मजबूत पाइपलाइन असतानाही, उत्पादन डेटा बदलतो. वैशिष्ट्य वितरणातील बदलांचे निरीक्षण करणे आणि प्रशिक्षण-सेवा देणारे स्क्यू (उत्पादन प्रशिक्षणापासून विचलित होते) आणि अनुमान ड्रिफ्ट (कालांतराने उत्पादन बदल) यावर सतर्क राहणे हा एक सामान्य दृष्टिकोन आहे. देखरेख हलके (मूलभूत वितरण तपासणी) किंवा व्यवस्थापित (व्हर्टेक्स एआय मॉडेल मॉनिटरिंग सारखे) असू शकते. इनपुट शिफ्ट्स लवकर पकडणे हे ध्येय आहे - ते मॉडेल कामगिरी हळूहळू खराब करण्यापूर्वी.

संदर्भ

[1] scikit-learn API:
sklearn.preprocessing (एनकोडर, स्केलर, सामान्यीकरण) [2] scikit-learn: सामान्य तोटे - डेटा गळती आणि ते कसे टाळायचे
[3] हगिंग फेस ट्रान्सफॉर्मर्स डॉक्स: टोकनायझर्स (इनपुट आयडी, अटेंशन मास्क)
[4] PyTorch Torchvision डॉक्स: ट्रान्सफॉर्म्स (राईज/नॉर्मलाइझ + रँडम ट्रान्सफॉर्म्स)
[5] गुगल क्लाउड व्हर्टेक्स एआय डॉक्स: मॉडेल मॉनिटरिंग ओव्हरव्ह्यू (फीचर स्क्यू आणि ड्रिफ्ट)

अधिकृत एआय असिस्टंट स्टोअरमध्ये नवीनतम एआय शोधा

आमच्याबद्दल

ब्लॉगवर परत

देश/प्रदेश