एआय माहिती कुठून मिळवते?

एआयला त्याची माहिती कुठून मिळते?

कधी तिथे बसून डोके खाजवत आहात का, असं वाटतंय... हे सगळं खरंच कुठून येतंय ? म्हणजे, एआय धुळीने माखलेल्या लायब्ररीच्या ढिगाऱ्यांमधून शोध घेत नाहीये किंवा युट्यूब शॉर्ट्सचा धूर्तपणे वापर करत नाहीये. तरीही ते लासग्ना हॅक्सपासून ते ब्लॅक होल फिजिक्सपर्यंत - प्रत्येक गोष्टीची उत्तरे शोधून काढते जणू काही त्यात काही अथांग फाइलिंग कॅबिनेट आहे. वास्तव अधिक विचित्र आहे आणि कदाचित तुम्ही अंदाज लावता त्यापेक्षा जास्त मनोरंजक आहे. चला ते थोडे उघड करूया (आणि हो, कदाचित वाटेत काही मिथकांना उलगडूया).


हे जादूटोणा आहे का? 🌐

हे जादूटोणा नाहीये, जरी कधीकधी ते तसं वाटतं. गुप्तपणे जे घडतंय ते मुळात पॅटर्न प्रेडिक्शन . मोठे भाषा मॉडेल (LLM) तथ्ये साठवत ; त्याऐवजी, त्यांना आधी आलेल्या शब्दांवर आधारित पुढील शब्द (टोकन) अंदाज लावण्याचे प्रशिक्षण दिले जाते [2]. प्रत्यक्षात, याचा अर्थ ते संबंधांना चिकटून राहतात: कोणते शब्द एकत्र राहतात, वाक्ये सहसा कशी आकार घेतात, संपूर्ण कल्पना मचानासारख्या कशा बांधल्या जातात. म्हणूनच आउटपुट वाटतो , जरी - पूर्ण प्रामाणिकपणा - ही सांख्यिकीय नक्कल आहे, आकलन नाही [4].

तर मग एआय-व्युत्पन्न माहिती खरोखर उपयुक्त ? काही गोष्टी:

  • डेटा विविधता - एका अरुंद प्रवाहातून नव्हे तर असंख्य स्त्रोतांमधून मिळवलेली माहिती.

  • अपडेट्स - रिफ्रेश सायकलशिवाय, ते लवकर जुने होते.

  • फिल्टरिंग - कचरा आत शिरण्यापूर्वीच तो पकडणे आदर्श आहे (पण, खरे सांगूया, त्या जाळीला छिद्रे आहेत).

  • क्रॉस-चेकिंग - अधिकृत स्रोतांवर अवलंबून राहणे (नासा, डब्ल्यूएचओ, प्रमुख विद्यापीठे विचारात घ्या), जे बहुतेक एआय गव्हर्नन्स प्लेबुकमध्ये असणे आवश्यक आहे [3].

तरीही, कधीकधी ते आत्मविश्वासाने बनावट बनवते. ते तथाकथित भ्रम ? मुळात सरळ तोंडाने पॉलिश केलेले मूर्खपणा [2][3].

या लेखानंतर तुम्हाला वाचायला आवडतील असे लेख:

🔗 एआय लॉटरीच्या संख्येचा अंदाज लावू शकते का?
एआय लॉटरी भाकितांविषयीच्या मिथकांचा आणि तथ्यांचा शोध घेणे.

🔗 एआयकडे समग्र दृष्टिकोन बाळगण्याचा अर्थ काय आहे?
नैतिकता आणि परिणाम यावर संतुलित दृष्टिकोन ठेवून एआय समजून घेणे.

🔗 बायबल कृत्रिम बुद्धिमत्तेबद्दल काय म्हणते?
तंत्रज्ञान आणि मानवी निर्मितीबद्दल बायबलमधील दृष्टिकोनांचे परीक्षण करणे.


जलद तुलना: एआय कुठून येते 📊

प्रत्येक स्रोत समान नसतो, परंतु प्रत्येकजण त्याची भूमिका बजावतो. येथे एक स्नॅपशॉट दृश्य आहे.

स्रोत प्रकार कोण वापरते (AI) किंमत/मूल्य ते का काम करते (किंवा करत नाही...)
पुस्तके आणि लेख मोठे भाषा मॉडेल अमूल्य (अमूल्य) सघन, संरचित ज्ञान - फक्त लवकर जुने होते.
वेबसाइट्स आणि ब्लॉग्ज जवळजवळ सर्वच एआय मोफत (आवाजासह) जंगली विविधता; तेजस्वीपणा आणि परिपूर्ण कचरा यांचे मिश्रण.
शैक्षणिक पेपर्स संशोधन-प्रधान एआय कधीकधी पेवॉल केलेले कठोरता + विश्वासार्हता, पण जड शब्दजालांमध्ये गुंतलेली.
वापरकर्ता डेटा वैयक्तिकृत एआय अत्यंत संवेदनशील ⚠️ हुशार टेलरिंग, पण गोपनीयतेची डोकेदुखी खूप आहे.
रिअल-टाइम वेब शोध-लिंक्ड एआय मोफत (ऑनलाइन असल्यास) माहिती ताजी ठेवते; तोटा म्हणजे अफवांचा प्रसार होण्याचा धोका.

प्रशिक्षण डेटा विश्व 🌌

हा "बालपणीच्या शिक्षणाचा" टप्पा आहे. कल्पना करा की तुम्ही एका मुलाला लाखो स्टोरीबुक्स, न्यूज क्लिपिंग्ज आणि विकिपीडिया रॅबिट होल्स देत आहात. प्रीट्रेनिंग असेच दिसते. वास्तविक जगात, प्रदाते सार्वजनिकरित्या उपलब्ध डेटा, परवानाधारक स्रोत आणि प्रशिक्षक-निर्मित मजकूर [2].

वर थर: क्युरेट केलेली मानवी उदाहरणे - चांगली उत्तरे, वाईट उत्तरे, योग्य दिशेने ढकलणे - मजबुतीकरण सुरू होण्यापूर्वीच [1].

पारदर्शकतेची खबरदारी: कंपन्या प्रत्येक तपशील उघड करत नाहीत. काही रेलिंग गुप्त असतात (आयपी, सुरक्षिततेच्या चिंता), त्यामुळे तुम्हाला प्रत्यक्ष मिश्रणात फक्त एक आंशिक विंडो मिळते [2].


रिअल-टाइम शोध: अतिरिक्त टॉपिंग 🍒

काही मॉडेल्स आता त्यांच्या प्रशिक्षण बबलच्या बाहेर डोकावू शकतात. ते म्हणजे रिट्रीव्हल-ऑगमेंटेड जनरेशन (RAG) - मुळात लाईव्ह इंडेक्स किंवा डॉक स्टोअरमधून भाग काढणे, नंतर ते उत्तरात विणणे [5]. बातम्यांच्या मथळ्या किंवा स्टॉकच्या किमतींसारख्या जलद बदलणाऱ्या गोष्टींसाठी योग्य.

घाणेरडे? इंटरनेट हे प्रतिभा आणि कचरा यांच्यात समान भाग आहे. जर फिल्टर किंवा मूळ तपासणी कमकुवत असतील, तर जंक डेटा परत जाण्याचा धोका असतो - जोखीम फ्रेमवर्क ज्याबद्दल इशारा देतात [3].

त्यांच्या स्वतःच्या जोडतात , म्हणून उत्तरे चालू एचआर धोरण किंवा अपडेटेड उत्पादन दस्तऐवजाचा संदर्भ देण्याऐवजी देतात. विचार करा: कमी "उह-उह" क्षण, अधिक विश्वासार्ह उत्तरे.


फाइन-ट्यूनिंग: एआयचे पॉलिशिंग पाऊल 🧪

कच्च्या प्रीट्रेन केलेले मॉडेल्स क्लिष्ट असतात. म्हणून ते अधिक चांगल्या प्रकारे तयार केले :

  • उपयुक्त, निरुपद्रवी, प्रामाणिक राहण्यास शिकवणे (मानवी अभिप्रायातून बळकटी शिक्षणाद्वारे, RLHF) [1].

  • असुरक्षित किंवा विषारी कडा वाळूने भरणे (संरेखन) [1].

  • स्वरात बदल करणे - मग ते मैत्रीपूर्ण असो, औपचारिक असो किंवा विनोदी असो.

हे एखाद्या हिऱ्याला इतके पॉलिश करणे नाही तर एका सांख्यिकीय हिमस्खलनाला संभाषणाच्या जोडीदारासारखे वागण्यास भाग पाडणे आहे.


अडथळे आणि अपयश 🚧

आपण ते निर्दोष असल्याचे भासवू नये:

  • भ्रम - स्पष्ट उत्तरे जी अगदी चुकीची आहेत [2][3].

  • बायस - ते डेटामध्ये बेक केलेले पॅटर्न प्रतिबिंबित करते; अनचेक केले तर ते वाढवू शकते [3][4].

  • प्रत्यक्ष अनुभव नाही - ते सूपच्या पाककृतींबद्दल बोलू

  • अतिआत्मविश्वास - गद्य जसे माहित असते तसे वाहते, जरी ते नसले तरी. जोखीम चौकटी गृहीतकांवर भर देतात [3].


हे जाणून घेतल्यासारखे का वाटते 🧠

त्याला कोणताही विश्वास नाही, मानवी अर्थाने स्मृती नाही आणि निश्चितच स्वतःचाही नाही. तरीही ते वाक्ये सहजतेने एकत्र जोडते, तुमचा मेंदू ते असे वाचतो जणू काही त्याला समजते . जे घडत आहे ते फक्त मोठ्या प्रमाणात होणारे पुढील-टोकन भाकित आहे : स्प्लिट-सेकंदांमध्ये अब्जावधी संभाव्यता क्रंच करणे [2].

"बुद्धिमत्ता" हा भावनिक अनुभव वर्तनात दिसून येतो - संशोधक त्याला थोडेसे बोलके, "स्टोकॅस्टिक पॅरट" प्रभाव म्हणतात [4].


मुलांसाठी अनुकूल उपमा 🎨

कल्पना करा एक पोपट जो ग्रंथालयातील प्रत्येक पुस्तक वाचतो. त्याला समजत पण शब्दांचे मिश्रण करून ते शहाणपणाचे वाटते. कधीकधी ते अचूक असते; कधीकधी ते मूर्खपणाचे असते - परंतु पुरेसे कौशल्य असले तरी, तुम्हाला नेहमीच फरक कळत नाही.


शेवट: एआयची माहिती कुठून येते 📌

सोप्या भाषेत:

  • प्रचंड प्रशिक्षण डेटा (सार्वजनिक + परवानाधारक + प्रशिक्षक-निर्मित) [2].

  • स्वर/वर्तन आकार देण्यासाठी मानवी अभिप्रायासह फाइन-ट्यूनिंग

  • लाइव्ह डेटा स्ट्रीमशी जोडल्यावर पुनर्प्राप्ती प्रणाली

एआय ला गोष्टी "माहित" नसतात - ते मजकूर भाकीत करते . ही त्याची सुपरपॉवर आणि त्याची अ‍ॅकिलीसची टाच दोन्ही आहे. निष्कर्ष? नेहमी विश्वासार्ह स्रोताविरुद्ध महत्त्वाच्या गोष्टींची उलटतपासणी करा [3].


संदर्भ

  1. ओयांग, एल. आणि इतर (२०२२). मानवी अभिप्रायासह सूचनांचे पालन करण्यासाठी भाषा मॉडेल्सना प्रशिक्षण देणे (InstructGPT) . arXiv .

  2. ओपनएआय (२०२३). जीपीटी-४ तांत्रिक अहवाल - परवानाधारक, सार्वजनिक आणि मानवनिर्मित डेटाचे मिश्रण; पुढील-टोकन अंदाज उद्दिष्ट आणि मर्यादा. arXiv .

  3. NIST (२०२३). AI जोखीम व्यवस्थापन फ्रेमवर्क (AI RMF १.०) - मूळ, विश्वासार्हता आणि जोखीम नियंत्रणे. PDF .

  4. बेंडर, ईएम, गेब्रू, टी., मॅकमिलन-मेजर, ए., मिशेल, एस. (२०२१). स्टोकास्टिक पोपटांच्या धोक्यांबद्दल: भाषेचे मॉडेल खूप मोठे असू शकतात का? पीडीएफ .

  5. लुईस, पी. एट अल. (२०२०). ज्ञान-गहन एनएलपीसाठी पुनर्प्राप्ती-संवर्धित पिढी . arXiv .


अधिकृत एआय असिस्टंट स्टोअरमध्ये नवीनतम एआय शोधा.

आमच्याबद्दल

ब्लॉगवर परत