थोडक्यात उत्तर: एआय अपस्केलिंग मॉडेलला कमी आणि उच्च-रिझोल्यूशन प्रतिमांवर प्रशिक्षित करून कार्य करते, नंतर अपस्केलिंग दरम्यान विश्वासार्ह अतिरिक्त पिक्सेलचा अंदाज लावण्यासाठी त्याचा वापर करते. जर मॉडेलने प्रशिक्षणात समान पोत किंवा चेहरे पाहिले असतील, तर ते खात्रीशीर तपशील जोडू शकते; जर नसेल, तर ते व्हिडिओमध्ये प्रभामंडल, मेणाची त्वचा किंवा फ्लिकर यासारख्या कलाकृतींना "भ्रमित" करू शकते.
महत्वाचे मुद्दे:
भाकित : हे मॉडेल वास्तवाची हमी पुनर्बांधणी नव्हे तर व्यवहार्य तपशील निर्माण करते.
मॉडेल निवड : CNN अधिक स्थिर असतात; GAN अधिक तीक्ष्ण दिसू शकतात परंतु वैशिष्ट्ये शोधण्याचा धोका पत्करतात.
कलाकृतींची तपासणी : प्रभामंडळ, पुनरावृत्ती होणारे पोत, "जवळजवळ अक्षरे" आणि प्लास्टिकसारखे चेहरे याकडे लक्ष द्या.
व्हिडिओ स्थिरता : टेम्पोरल पद्धती वापरा नाहीतर तुम्हाला फ्रेम-टू-फ्रेम चमक आणि ड्रिफ्ट दिसेल.
उच्च-दाबांचा वापर : जर अचूकता महत्त्वाची असेल, तर प्रक्रिया उघड करा आणि निकालांना उदाहरणात्मक म्हणून हाताळा.

तुम्ही कदाचित हे पाहिले असेल: एक लहान, कुरकुरीत प्रतिमा इतक्या खुसखुशीतपणे बदलते की ती छापता येते, स्ट्रीम करता येते किंवा प्रेझेंटेशनमध्ये टाकता येते, न डगमगता. ते फसवणूक केल्यासारखे वाटते. आणि - सर्वोत्तम मार्गाने - ते 😅 आहे
तर, एआय अपस्केलिंग कसे कार्य करते हे "संगणक तपशील वाढवते" (हाताने हलवणारे) पेक्षा अधिक विशिष्ट गोष्टीवर अवलंबून आहे आणि "एक मॉडेल अनेक उदाहरणांमधून शिकलेल्या नमुन्यांवर आधारित संभाव्य उच्च-रिझोल्यूशन संरचनेचा अंदाज लावतो" ( प्रतिमा सुपर-रिझोल्यूशनसाठी डीप लर्निंग: एक सर्वेक्षण ) च्या जवळ आहे. तो भाकित करण्याचा टप्पा संपूर्ण खेळ आहे - आणि म्हणूनच एआय अपस्केलिंग आश्चर्यकारक दिसू शकते... किंवा थोडे प्लास्टिक... किंवा तुमच्या मांजरीने वाढवलेल्या बोनस व्हिस्कर्ससारखे.
या लेखानंतर तुम्हाला वाचायला आवडतील असे लेख:
🔗 एआय कसे काम करते
एआय मध्ये मॉडेल्स, डेटा आणि अनुमानाची मूलतत्त्वे जाणून घ्या.
🔗 एआय कसे शिकते
प्रशिक्षण डेटा आणि अभिप्राय कालांतराने मॉडेल कामगिरी कशी सुधारतात ते पहा.
🔗 एआय विसंगती कशा शोधते
पॅटर्न बेसलाइन्स समजून घ्या आणि एआय असामान्य वर्तन कसे लवकर ओळखते ते समजून घ्या.
🔗 एआय ट्रेंडचा अंदाज कसा लावते
सिग्नल ओळखणाऱ्या आणि भविष्यातील मागणीचा अंदाज घेणाऱ्या अंदाज पद्धतींचा शोध घ्या.
एआय अपस्केलिंग कसे कार्य करते: मुख्य कल्पना, दररोजच्या शब्दात 🧩
अपस्केलिंग म्हणजे रिझोल्यूशन वाढवणे: अधिक पिक्सेल, मोठी प्रतिमा. पारंपारिक अपस्केलिंग (जसे की बायक्यूबिक) मुळात पिक्सेल ताणते आणि संक्रमणे सुरळीत करते ( बायक्यूबिक इंटरपोलेशन ). ते ठीक आहे, परंतु ते नवीन तपशील शोधू शकत नाही - ते फक्त इंटरपोलेट करते.
एआय अपस्केलिंग काहीतरी अधिक धाडसी करण्याचा प्रयत्न करते (संशोधन जगात "सुपर-रिझोल्यूशन" म्हणूनही ओळखले जाते) ( प्रतिमेसाठी डीप लर्निंग सुपर-रिझोल्यूशन: एक सर्वेक्षण ):
-
ते कमी-रिझोल्यूशन इनपुट पाहते
-
नमुने ओळखतो (कडा, पोत, चेहऱ्याचे वैशिष्ट्य, मजकूर स्ट्रोक, कापड विणणे...)
-
उच्च-रिझोल्यूशन आवृत्ती कशी दिसावी याचा
-
त्या नमुन्यांशी जुळणारा अतिरिक्त पिक्सेल डेटा जनरेट करते
"वास्तविकता परिपूर्णपणे पुनर्संचयित करा" असे नाही, तर "अत्यंत विश्वासार्ह अंदाज लावा" ( इमेज सुपर-रिझोल्यूशन युजिंग डीप कन्व्होल्यूशनल नेटवर्क्स (SRCNN) ). जर ते थोडे संशयास्पद वाटत असेल, तर तुम्ही चुकीचे नाही आहात - परंतु ते इतके चांगले का कार्य करते हे देखील त्यामुळेच आहे 😄
आणि हो, याचा अर्थ असा की एआय अपस्केलिंग हे मुळात नियंत्रित भ्रम आहे... पण उत्पादक, पिक्सेल-आदर करणाऱ्या पद्धतीने.
एआय अपस्केलिंगची चांगली आवृत्ती काय असू शकते? ✅🛠️
जर तुम्ही एआय अपस्केलर (किंवा सेटिंग प्रीसेट) बद्दल विचार करत असाल, तर येथे सर्वात महत्त्वाचे काय आहे ते आहे:
-
जास्त शिजवल्याशिवाय डिटेल रिकव्हरी
चांगले अपस्केलिंग कुरकुरीतपणा आणि रचना वाढवते, कुरकुरीत आवाज किंवा बनावट छिद्रे नाही. -
कडा शिस्त
स्वच्छ रेषा स्वच्छ राहतात. वाईट मॉडेल्समुळे कडा डगमगतात किंवा प्रभामंडळ फुटतात. -
पोत वास्तववाद
केस हे ब्रशच्या फटक्यात बदलू नयेत. विट हे पुनरावृत्ती होणारे नमुनेदार स्टॅम्प बनू नयेत. -
आवाज आणि कॉम्प्रेशन हाताळणी
दररोजच्या बऱ्याच प्रतिमा जेपीईजीमध्ये मोडल्या जातात. एक चांगला अपस्केलर त्या नुकसानाला वाढवत नाही ( Real-ESRGAN ). -
चेहरा आणि मजकूर जागरूकता
चुका शोधण्यासाठी चेहरे आणि मजकूर ही सर्वात सोपी ठिकाणे आहेत. चांगले मॉडेल त्यांना सौम्यपणे हाताळतात (किंवा विशेष पद्धती असतात). -
फ्रेम्समध्ये सुसंगतता (व्हिडिओसाठी)
जर तपशील फ्रेम-टू-फ्रेममध्ये चमकत राहिला तर तुमचे डोळे ओरडतील. व्हिडिओ अपस्केलिंग तात्पुरत्या स्थिरतेमुळे जगते किंवा मरते ( बेसिकव्हीएसआर (सीव्हीपीआर २०२१) ). -
अर्थपूर्ण नियंत्रणे
तुम्हाला असे स्लायडर हवे आहेत जे वास्तविक परिणामांशी जुळतात: आवाज कमी करणे, डिब्लर करणे, आर्टिफॅक्ट काढणे, धान्य टिकवून ठेवणे, तीक्ष्ण करणे... व्यावहारिक गोष्टी.
एक शांत नियम जो टिकून राहतो: "सर्वोत्तम" अपस्केलिंग बहुतेकदा तुम्हाला क्वचितच लक्षात येते. असे दिसते की सुरुवातीला तुमच्याकडे एक चांगला कॅमेरा होता 📷✨
तुलना सारणी: लोकप्रिय एआय अपस्केलिंग पर्याय (आणि ते कशासाठी चांगले आहेत) 📊🙂
खाली एक व्यावहारिक तुलना दिली आहे. किमती जाणूनबुजून अस्पष्ट आहेत कारण साधने परवाना, बंडल, गणना खर्च आणि त्या सर्व मजेदार गोष्टींनुसार बदलतात.
| साधन / दृष्टिकोन | साठी सर्वोत्तम | किंमत वातावरण | ते का काम करते (अंदाजे) |
|---|---|---|---|
| पुष्कराज-शैलीतील डेस्कटॉप अपस्केलर्स ( पुष्कराज फोटो , पुष्कराज व्हिडिओ ) | फोटो, व्हिडिओ, सोपे वर्कफ्लो | पेड-इश | मजबूत सामान्य मॉडेल्स + भरपूर ट्यूनिंग, बहुतेकदा "फक्त काम" करतात.. |
| अॅडोब “सुपर रिझोल्यूशन” प्रकारची वैशिष्ट्ये ( अॅडोब एन्हांस > सुपर रिझोल्यूशन ) | त्या परिसंस्थेत आधीच छायाचित्रकार आहेत | सबस्क्रिप्शन-y | ठोस तपशील पुनर्बांधणी, सहसा रूढीवादी (कमी नाट्यमय) |
| रिअल-एसआरजीएएन / एसआरजीएएन प्रकार ( रिअल-एसआरजीएएन , एसआरजीएएन ) | DIY, डेव्हलपर्स, बॅच जॉब्स | मोफत (पण वेळखाऊ) | पोत तपशीलांमध्ये उत्तम, जर तुम्ही काळजी घेतली नाही तर चेहऱ्यावर तिखटपणा येऊ शकतो |
| प्रसार-आधारित अपस्केलिंग मोड्स ( SR3 ) | सर्जनशील कार्य, शैलीबद्ध निकाल | मिश्रित | सुंदर तपशील तयार करू शकतो - तसेच मूर्खपणाचा शोध लावू शकतो, म्हणून... हो |
| गेम अपस्केलर्स (DLSS/FSR-शैली) ( NVIDIA DLSS , AMD FSR 2 ) | रिअल-टाइम गेमिंग आणि रेंडरिंग | एकत्रित | मोशन डेटा आणि शिकलेले पूर्वज्ञान वापरते - सुरळीत कामगिरी जिंकणे 🕹️ |
| क्लाउड अपस्केलिंग सेवा | सुविधा, जलद विजय | वापरानुसार पैसे | जलद + स्केलेबल, परंतु तुम्ही नियंत्रण आणि कधीकधी सूक्ष्मतेची देवाणघेवाण करता |
| व्हिडिओ-केंद्रित एआय अपस्केलर्स ( बेसिकव्हीएसआर , टोपाझ व्हिडिओ ) | जुने फुटेज, अॅनिमे, संग्रह | पेड-इश | फ्लिकर कमी करण्यासाठी तात्पुरत्या युक्त्या + विशेष व्हिडिओ मॉडेल्स |
| "स्मार्ट" फोन/गॅलरीचे स्केलिंग वाढवणे | सामान्य वापर | समाविष्ट | हलके मॉडेल परिपूर्णतेसाठी नव्हे तर आनंददायी आउटपुटसाठी तयार केलेले (अजूनही वापरता येतील) |
स्वरूपण विचित्र कबुली: त्या टेबलमध्ये "पेड-इश" खूप काम करत आहे. पण तुम्हाला कल्पना येते 😅
मोठे रहस्य: मॉडेल्स कमी-रिझोल्यूशन ते उच्च-रिझोल्यूशन पर्यंत मॅपिंग शिकतात 🧠➡️🖼️
बहुतेक एआय अपस्केलिंगच्या केंद्रस्थानी एक पर्यवेक्षित शिक्षण सेटअप आहे ( इमेज सुपर-रिझोल्यूशन युजिंग डीप कन्व्होल्यूशनल नेटवर्क्स (SRCNN) ):
-
उच्च-रिझोल्यूशन प्रतिमांसह सुरुवात करा ("सत्य")
-
त्यांना कमी-रिझोल्यूशन आवृत्त्यांमध्ये ("इनपुट") डाउनसॅम्पल करा
-
कमी-रिझोल्यूशनमधून मूळ उच्च-रिझोल्यूशनची पुनर्बांधणी करण्यासाठी मॉडेलला प्रशिक्षित करा
कालांतराने, मॉडेल खालील सहसंबंध शिकते:
-
"डोळ्याभोवतीचा हा प्रकार सहसा पापण्यांमुळे होतो"
-
"हे पिक्सेल क्लस्टर बहुतेकदा सेरिफ मजकूर दर्शवते"
-
"ही कडा ग्रेडियंट छतावरील रेषेसारखी दिसते, यादृच्छिक आवाजासारखी नाही"
हे विशिष्ट प्रतिमा लक्षात ठेवणे नाही (सोप्या अर्थाने), ते सांख्यिकीय रचना शिकणे आहे ( प्रतिमा सुपर-रेझोल्यूशनसाठी डीप लर्निंग: एक सर्वेक्षण ). पोत आणि कडांचे व्याकरण शिकण्यासारखे विचार करा. कविता व्याकरण नाही, अधिक ... IKEA मॅन्युअल व्याकरण 🪑📦 (अनावश्यक रूपक, तरीही पुरेसे जवळचे).
नट अँड बोल्ट: अनुमान काढताना काय होते (जेव्हा तुम्ही अपस्केल करता) ⚙️✨
जेव्हा तुम्ही एआय अपस्केलरमध्ये प्रतिमा फीड करता तेव्हा सामान्यतः अशी पाइपलाइन असते:
-
पूर्वप्रक्रिया
-
रंग जागा रूपांतरित करा (कधीकधी)
-
पिक्सेल मूल्ये सामान्य करा
-
जर प्रतिमा मोठी असेल तर तिचे तुकडे करा (VRAM रिअॅलिटी चेक 😭) ( रिअल-ESRGAN रेपो (टाइल पर्याय) )
-
-
वैशिष्ट्य काढणे
-
सुरुवातीचे थर कडा, कोपरे, ग्रेडियंट शोधतात
-
खोल थर नमुने शोधतात: पोत, आकार, चेहऱ्याचे घटक
-
-
पुनर्बांधणी
-
हे मॉडेल उच्च-रिझोल्यूशन वैशिष्ट्य नकाशा तयार करते
-
नंतर ते प्रत्यक्ष पिक्सेल आउटपुटमध्ये रूपांतरित करते
-
-
प्रक्रिया केल्यानंतर
-
पर्यायी तीक्ष्ण करणे
-
पर्यायी आवाज कमी करणे
-
पर्यायी आर्टिफॅक्ट सप्रेशन (रिंगिंग, हेलोस, ब्लॉकिनेस)
-
एक बारीकसारीक तपशील: अनेक साधने टाइल्समध्ये उच्च दर्जाची असतात, नंतर शिवण मिसळतात. उत्तम साधने टाइलच्या सीमा लपवतात. मेह टूल्स तुम्ही नजर फिरवली तर हलके ग्रिड खुणा सोडतात. आणि हो, तुम्ही नजर फिरवाल, कारण मानवांना लहान ग्रेमलिनसारखे ३००% झूम करून सूक्ष्म दोष तपासणे आवडते 🧌
एआय अपस्केलिंगसाठी वापरलेले मुख्य मॉडेल कुटुंबे (आणि ते वेगळे का वाटतात) 🤖📚
१) सीएनएन-आधारित सुपर-रिझोल्यूशन (क्लासिक वर्कहॉर्स)
कन्व्होल्यूशनल न्यूरल नेटवर्क स्थानिक नमुन्यांमध्ये उत्तम आहेत: कडा, पोत, लहान रचना ( इमेज सुपर-रिझोल्यूशन युजिंग डीप कन्व्होल्यूशनल नेटवर्क्स (SRCNN) ).
-
फायदे: जलद, स्थिर, कमी आश्चर्ये
-
तोटे: जोरात दाबल्यास ते थोडे "प्रक्रिया केलेले" दिसू शकते
२) GAN-आधारित अपस्केलिंग (ESRGAN-शैली) 🎭
GANs (जनरेटिव्ह अॅडव्हर्सेरियल नेटवर्क्स) जनरेटरला उच्च-रिझोल्यूशन प्रतिमा तयार करण्यास प्रशिक्षित करतात ज्या भेदभाव करणारा खऱ्या प्रतिमांपासून वेगळे करू शकत नाही ( जनरेटिव्ह अॅडव्हर्सेरियल नेटवर्क्स ).
-
फायदे: अचूक तपशील, प्रभावी पोत
-
तोटे: नसलेले तपशील शोधू शकतो - कधीकधी चुकीचे, कधीकधी विचित्र ( SRGAN , ESRGAN )
GAN तुम्हाला श्वास घेण्यासारखी तीक्ष्णता देऊ शकते. ते तुमच्या पोर्ट्रेट विषयाला अतिरिक्त भुवया देखील देऊ शकते. म्हणून… तुमचे लढाया निवडा 😬
३) प्रसार-आधारित अपस्केलिंग (क्रिएटिव्ह वाइल्डकार्ड) 🌫️➡️🖼️
डिफ्यूजन मॉडेल्स टप्प्याटप्प्याने आवाज कमी करतात आणि उच्च-रिझोल्यूशन तपशील ( SR3 ) तयार करण्यासाठी मार्गदर्शन केले जाऊ शकतात.
-
फायदे: विशेषतः सर्जनशील कामासाठी, वाजवी तपशीलांमध्ये खूपच चांगले असू शकते
-
तोटे: सेटिंग्ज आक्रमक असल्यास मूळ ओळख/रचनेपासून दूर जाऊ शकतात ( SR3 )
इथेच "अपस्केलिंग" आणि "पुनर्कल्पना" यांचे मिश्रण सुरू होते. कधीकधी तुम्हाला तेच हवे असते तर कधीकधी ते नसते.
४) टेम्पोरल सुसंगततेसह व्हिडिओ अपस्केलिंग 🎞️
व्हिडिओ अपस्केलिंगमध्ये अनेकदा गती-जागरूक तर्क जोडला जातो:
-
तपशील स्थिर करण्यासाठी शेजारच्या फ्रेम्स वापरते ( बेसिकव्हीएसआर (सीव्हीपीआर २०२१) )
-
चमकणारे आणि रेंगाळणारे कलाकृती टाळण्याचा प्रयत्न करतो
-
अनेकदा सुपर-रिझोल्यूशन डीनॉइज आणि डीइंटरलेसिंगसह एकत्रित केले जाते ( टोपाझ व्हिडिओ )
जर इमेज अपस्केलिंग हे एका पेंटिंगला रिस्टोअर करण्यासारखे आहे, तर व्हिडिओ अपस्केलिंग हे प्रत्येक पानावर पात्राच्या नाकाचा आकार न बदलता फ्लिपबुक रिस्टोअर करण्यासारखे आहे. जे... वाटते त्यापेक्षा कठीण आहे.
एआय अपस्केलिंग कधीकधी खोटे का दिसते (आणि ते कसे ओळखावे) 👀🚩
एआय अपस्केलिंग ओळखण्यायोग्य मार्गांनी अपयशी ठरते. एकदा तुम्ही नमुने शिकलात की, तुम्हाला ते सर्वत्र दिसतील, जसे की नवीन कार खरेदी करणे आणि अचानक प्रत्येक रस्त्यावर ते मॉडेल दिसणे 😵💫
सामान्य सांगतात:
-
चेहऱ्यावरील मेणाची त्वचा
-
अति-तीक्ष्ण प्रभामंडळ (क्लासिक "ओव्हरशूट" प्रदेश) ( बायक्यूबिक इंटरपोलेशन )
-
पुनरावृत्ती होणारे पोत (विटांच्या भिंती कॉपी-पेस्ट नमुने बनतात)
-
"अल्गोरिथम" असे ओरडणारा कुरकुरीत मायक्रो-कॉन्ट्रास्ट
-
अक्षरे जवळजवळ अक्षरे बनतात अशा मजकुराची गोंधळ
-
तपशीलवार प्रवाह जिथे लहान वैशिष्ट्ये सूक्ष्मपणे बदलतात, विशेषतः प्रसार कार्यप्रवाहांमध्ये ( SR3 )
अवघड भाग: कधीकधी या कलाकृती एका दृष्टीक्षेपात "चांगल्या" दिसतात. तुमच्या मेंदूला तीक्ष्णता आवडते. पण काही क्षणानंतर, ते... बंद पडल्यासारखे वाटते.
एक चांगली युक्ती म्हणजे झूम कमी करणे आणि सामान्य दृश्य अंतरावर ते नैसर्गिक दिसते का ते तपासणे. जर ते फक्त ४००% झूमवर चांगले दिसत असेल तर ते जिंकणे नाही, तो एक छंद आहे 😅
एआय अपस्केलिंग कसे कार्य करते: गणिताच्या डोकेदुखीशिवाय प्रशिक्षणाची बाजू 📉🙂
सुपर-रिझोल्यूशन मॉडेल्सना प्रशिक्षण देण्यामध्ये सहसा हे समाविष्ट असते:
-
पेअर केलेले डेटासेट (कमी-रिझोल्यूशन इनपुट, उच्च-रिझोल्यूशन लक्ष्य) ( डीप कन्व्होल्यूशनल नेटवर्क्स (SRCNN) वापरून इमेज सुपर-रिझोल्यूशन )
-
चुकीच्या पुनर्बांधणीला शिक्षा देणारे नुकसान कार्ये SRGAN )
सामान्य नुकसानाचे प्रकार:
-
पिक्सेल लॉस (L1/L2)
अचूकतेला प्रोत्साहन देते. थोडेसे सौम्य परिणाम देऊ शकते. -
बोधात्मक नुकसान
अचूक पिक्सेलपेक्षा सखोल वैशिष्ट्यांची (जसे की "हे दिसते ज्ञानात्मक नुकसान (जॉन्सन आणि इतर, २०१६) ). -
अॅडव्हर्सेरियल लॉस (GAN)
वास्तववादाला प्रोत्साहन देते, कधीकधी शब्दशः अचूकतेच्या किंमतीवर ( SRGAN , जनरेटिव्ह अॅडव्हर्सेरियल नेटवर्क्स ).
सतत रस्सीखेच सुरू असते:
-
मूळ
विरुद्ध विश्वासू बनवा -
ते दृश्यमानपणे सुखकारक बनवा
त्या स्पेक्ट्रममध्ये वेगवेगळ्या ठिकाणी वेगवेगळी साधने येतात. आणि तुम्ही कुटुंबाचे फोटो पुनर्संचयित करत आहात की फॉरेन्सिक अचूकतेपेक्षा "सुंदर दिसणे" महत्त्वाचे आहे असे पोस्टर तयार करत आहात यावर अवलंबून तुम्ही एकाला प्राधान्य देऊ शकता.
व्यावहारिक कार्यप्रवाह: फोटो, जुने स्कॅन, अॅनिमे आणि व्हिडिओ 📸🧾🎥
फोटो (पोर्ट्रेट, लँडस्केप, उत्पादनाचे फोटो)
सर्वोत्तम सराव सहसा असा असतो:
-
प्रथम सौम्य आवाज कमी करा (जर आवश्यक असेल तर)
-
रूढीवादी वातावरणासह उच्च दर्जाचे
-
जर गोष्टी खूप गुळगुळीत वाटत असतील तर परत धान्य घाला (हो, खरंच)
धान्य हे मिठासारखे असते. जास्त प्रमाणात जेवण खराब होते, पण कोणत्याही धान्याची चव अजिबात सपाट नसते 🍟
जुने स्कॅन आणि जास्त प्रमाणात संकुचित केलेल्या प्रतिमा
हे अधिक कठीण आहेत कारण मॉडेल कॉम्प्रेशन ब्लॉक्सना "टेक्सचर" म्हणून हाताळू शकते.
हे करून पहा:
-
कलाकृती काढून टाकणे किंवा ब्लॉक करणे
-
मग उच्च दर्जाचे
-
नंतर हलकेच तीक्ष्ण करणे (जास्त नाही... मला माहित आहे, सगळे असे म्हणतात, पण तरीही)
अॅनिमे आणि लाईन आर्ट
लाईन आर्टचे फायदे:
-
स्वच्छ कडा जपणारे मॉडेल्स
-
कमी पोत भ्रम
अॅनिमे अपस्केलिंग अनेकदा छान दिसते कारण आकार सोपे आणि सुसंगत असतात. (भाग्यवान.)
व्हिडिओ
व्हिडिओमध्ये अतिरिक्त पायऱ्या जोडल्या आहेत:
-
आवाज कमी करा
-
डिइंटरलेस (काही स्रोतांसाठी)
-
अपस्केल
-
टेम्पोरल स्मूथिंग किंवा स्टेबिलायझेशन ( बेसिकव्हीएसआर (सीव्हीपीआर २०२१) )
-
एकसंधतेसाठी पर्यायी धान्य पुनर्प्रवेश
जर तुम्ही काळाची सुसंगतता वगळली तर तुम्हाला ते चमकणारे तपशील चमकतील. एकदा तुम्हाला ते लक्षात आले की, तुम्ही ते पाहू शकत नाही. शांत खोलीत किंचाळणाऱ्या खुर्चीसारखे 😖
अंदाज न लावता सेटिंग्ज निवडणे (एक लहान चीट शीट) 🎛️😵💫
येथे एक चांगली सुरुवातीची मानसिकता आहे:
-
जर चेहरे प्लास्टिकसारखे दिसत असतील तर
आवाज कमी करा, तीक्ष्णता कमी करा, चेहरा संरक्षित करणारे मॉडेल किंवा मोड वापरून पहा. -
जर पोत खूप तीव्र दिसत असेल तर
"तपशील वाढवणे" किंवा "तपशील पुनर्प्राप्त करा" स्लाइडर कमी करा, नंतर सूक्ष्म धान्य घाला. -
जर कडा चमकत असतील तर
तीक्ष्ण करणे कमी करा, हॅलो सप्रेशन पर्याय तपासा. -
जर प्रतिमा खूप "एआय" दिसत असेल तर
अधिक संयमी व्हा. कधीकधी सर्वोत्तम चाल म्हणजे फक्त... कमी.
तसेच: फक्त शक्य आहे म्हणून 8x वाढवू नका. स्वच्छ 2x किंवा 4x हा बहुतेकदा चांगला पर्याय असतो. त्यापलीकडे, तुम्ही मॉडेलला तुमच्या पिक्सेलबद्दल फॅनफिक्शन लिहिण्यास सांगत आहात 📖😂
नीतिमत्ता, प्रामाणिकपणा आणि "सत्याचा" विचित्र प्रश्न 🧭😬
एआय अपस्केलिंगमुळे रेषा अस्पष्ट होते:
-
पुनर्संचयित करणे म्हणजे जे होते ते परत मिळवणे
-
सुधारणा म्हणजे जे नव्हते ते जोडणे
वैयक्तिक फोटोंसह, ते सहसा ठीक (आणि सुंदर) असते. पत्रकारिता, कायदेशीर पुरावे, वैद्यकीय इमेजिंग किंवा निष्ठा महत्त्वाची असलेल्या कोणत्याही गोष्टींसह... तुम्हाला सावधगिरी बाळगण्याची आवश्यकता आहे ( OSAC/NIST: फॉरेन्सिक डिजिटल इमेज मॅनेजमेंटसाठी मानक मार्गदर्शक , फॉरेन्सिक इमेज विश्लेषणासाठी SWGDE मार्गदर्शक तत्त्वे ).
एक साधा नियम:
-
जर दावे जास्त असतील, तर एआय अपस्केलिंगला उदाहरणात्मक .
तसेच, व्यावसायिक संदर्भात प्रकटीकरण महत्त्वाचे आहे. एआय वाईट आहे म्हणून नाही, तर प्रेक्षकांना हे जाणून घेण्यास पात्र आहे की तपशील पुनर्निर्मित केले गेले आहेत की कॅप्चर केले आहेत. ते फक्त... आदरणीय आहे.
समारोपाच्या नोंदी आणि एक छोटीशी माहिती 🧡✅
तर, एआय अपस्केलिंग कसे कार्य करते ते असे आहे: मॉडेल्स शिकतात की उच्च-रिझोल्यूशन तपशील कमी-रिझोल्यूशन पॅटर्नशी कसे संबंधित असतात प्रतिमा सुपर-रिझोल्यूशनसाठी डीप लर्निंग: एक सर्वेक्षण ). मॉडेल कुटुंबावर अवलंबून (सीएनएन, जीएएन, प्रसार, व्हिडिओ-टेम्पोरल), ते भाकित रूढीवादी आणि विश्वासू असू शकते... किंवा धाडसी आणि कधीकधी अविभाज्य 😅
जलद सारांश
-
पारंपारिक अपस्केलिंग पिक्सेल स्ट्रेच करते ( बायक्यूबिक इंटरपोलेशन )
-
एआय अपस्केलिंग शिकलेल्या नमुन्यांचा वापर करून गहाळ तपशीलांचा अंदाज लावते ( इमेज सुपर-रिझोल्यूशन युजिंग डीप कन्व्होल्यूशनल नेटवर्क्स (SRCNN) )
-
योग्य मॉडेल + संयम यातून उत्तम परिणाम मिळतात
-
व्हिडिओमध्ये प्रभामंडल, मेणासारखे चेहरे, पुनरावृत्ती होणारे पोत आणि झिलमिलाट पहा ( बॅसिकव्हीएसआर (सीव्हीपीआर २०२१) )
-
स्केलिंग वाढवणे हे बहुतेकदा "प्रशंसनीय पुनर्बांधणी" असते, परिपूर्ण सत्य नसते ( SRGAN , ESRGAN )
जर तुम्हाला हवे असेल तर तुम्ही काय वाढवत आहात ते मला सांगा (चेहरे, जुने फोटो, व्हिडिओ, अॅनिमे, टेक्स्ट स्कॅन), आणि मी एक सेटिंग्ज स्ट्रॅटेजी सुचवेन जी सामान्य "एआय लूक" अडचणी टाळेल 🎯🙂
वारंवार विचारले जाणारे प्रश्न
एआय अपस्केलिंग आणि ते कसे कार्य करते
एआय अपस्केलिंग (ज्याला अनेकदा "सुपर-रिझोल्यूशन" म्हटले जाते) प्रशिक्षणादरम्यान शिकलेल्या नमुन्यांमधून उच्च-रिझोल्यूशन तपशील गहाळ झाल्याचा अंदाज लावून प्रतिमेचे रिझोल्यूशन वाढवते. बायक्यूबिक इंटरपोलेशनसारखे पिक्सेल स्ट्रेच करण्याऐवजी, मॉडेल कडा, पोत, चेहरे आणि मजकूरासारखे स्ट्रोक अभ्यासते, नंतर त्या शिकलेल्या नमुन्यांशी सुसंगत नवीन पिक्सेल डेटा तयार करते. ते "वास्तविकता पुनर्संचयित करणे" कमी आणि नैसर्गिक म्हणून वाचले जाणारे "विश्वासार्ह अंदाज लावणे" जास्त आहे.
एआय अपस्केलिंग विरुद्ध बायक्यूबिक किंवा पारंपारिक आकार बदलणे
पारंपारिक अपस्केलिंग पद्धती (जसे की बायक्यूबिक) प्रामुख्याने विद्यमान पिक्सेलमध्ये इंटरपोलेट करतात, खऱ्या नवीन तपशीलाची निर्मिती न करता संक्रमणे गुळगुळीत करतात. एआय अपस्केलिंगचा उद्देश दृश्य संकेत ओळखून आणि त्या संकेतांच्या उच्च-रिझोल्यूशन आवृत्त्या कशा दिसतात याचा अंदाज घेऊन प्रशंसनीय रचना पुनर्बांधणी करणे आहे. म्हणूनच एआय परिणाम नाटकीयरित्या तीक्ष्ण वाटू शकतात आणि ते स्त्रोतामध्ये उपस्थित नसलेल्या कलाकृती किंवा "शोध" तपशीलांचा परिचय देऊ शकतात.
चेहरे मेणासारखे किंवा जास्त गुळगुळीत का दिसू शकतात
मेणासारखे चेहरे सहसा आक्रमक ध्वनी कमी करणे आणि गुळगुळीत करणे यापासून येतात आणि त्यासोबतच त्वचेचा नैसर्गिक पोत काढून टाकणारी तीक्ष्णता देखील असते. अनेक साधने आवाज आणि बारीक पोत समानतेने हाताळतात, म्हणून प्रतिमा "स्वच्छ" केल्याने छिद्रे आणि सूक्ष्म तपशील पुसले जाऊ शकतात. एक सामान्य दृष्टिकोन म्हणजे ध्वनी कमी करणे आणि तीक्ष्ण करणे कमी करणे, उपलब्ध असल्यास चेहरा-संरक्षण मोड वापरणे, नंतर दाण्यांचा स्पर्श पुन्हा सादर करणे जेणेकरून परिणाम कमी प्लास्टिक आणि अधिक फोटोग्राफिक वाटेल.
सामान्य एआय अपस्केलिंग कलाकृती ज्यांकडे लक्ष ठेवावे
सामान्य टेलमध्ये कडांभोवती प्रभामंडल, पुनरावृत्ती झालेले टेक्सचर पॅटर्न (कॉपी-पेस्ट ब्रिक्ससारखे), कुरकुरीत मायक्रो-कॉन्ट्रास्ट आणि "जवळजवळ अक्षरे" मध्ये बदलणारा मजकूर यांचा समावेश होतो. डिफ्यूजन-आधारित वर्कफ्लोमध्ये, तुम्ही तपशीलवार ड्रिफ्ट देखील पाहू शकता जिथे लहान वैशिष्ट्ये सूक्ष्मपणे बदलतात. व्हिडिओसाठी, फ्रेम्समध्ये फ्लिकर आणि क्रॉलिंग तपशील मोठे लाल झेंडे आहेत. जर ते फक्त अत्यंत झूममध्ये चांगले दिसत असेल, तर सेटिंग्ज कदाचित खूप आक्रमक असतील.
GAN, CNN आणि डिफ्यूजन अपस्केलर्सचे निकाल कसे वेगळे असतात
सीएनएन-आधारित सुपर-रिझोल्यूशन अधिक स्थिर आणि अधिक अंदाजे दिसू शकते, परंतु जर ते जोरात दाबले तर ते "प्रक्रिया केलेले" दिसू शकते. GAN-आधारित पर्याय (ESRGAN-शैली) बहुतेकदा पंचर पोत आणि तीक्ष्णता निर्माण करतात, परंतु ते चुकीचे तपशील भ्रमित करू शकतात, विशेषतः चेहऱ्यांवर. डिफ्यूजन-आधारित अपस्केलिंग सुंदर, प्रशंसनीय तपशील निर्माण करू शकते, तरीही मार्गदर्शन किंवा ताकद सेटिंग्ज खूप मजबूत असल्यास ते मूळ रचनेपासून दूर जाऊ शकते.
"खूपच कृत्रिम बुद्धिमत्ता" असलेला लूक टाळण्यासाठी एक व्यावहारिक सेटिंग्ज धोरण
कंझर्व्हेटिव्ह सुरुवात करा: टोकाच्या घटकांकडे जाण्यापूर्वी २× किंवा ४× अपस्केल करा. जर चेहरे प्लास्टिकसारखे दिसत असतील, तर आवाज कमी करा आणि तीक्ष्ण करा आणि चेहरा जागरूक करण्याचा मोड वापरून पहा. जर पोत खूप तीव्र झाले तर तपशील वाढवणे कमी करा आणि नंतर सूक्ष्म धान्य जोडण्याचा विचार करा. जर कडा चमकत असतील, तर तीक्ष्ण करणे कमी करा आणि प्रभामंडल किंवा आर्टिफॅक्ट सप्रेशन तपासा. अनेक पाइपलाइनमध्ये, "कमी" जिंकतो कारण ते विश्वासार्ह वास्तववाद जपते.
जुने स्कॅन किंवा जास्त प्रमाणात JPEG-संकुचित प्रतिमा अपस्केलिंग करण्यापूर्वी हाताळणे
कॉम्प्रेस्ड इमेजेस अवघड असतात कारण मॉडेल ब्लॉक आर्टिफॅक्ट्सना खऱ्या टेक्सचर म्हणून हाताळू शकतात आणि त्यांना अॅम्प्लीफाय करू शकतात. एक सामान्य वर्कफ्लो म्हणजे प्रथम आर्टिफॅक्ट काढून टाकणे किंवा डीब्लॉक करणे, नंतर अपस्केलिंग करणे, नंतर आवश्यक असल्यास फक्त हलके शार्पनिंग करणे. स्कॅनसाठी, सौम्य साफसफाई मॉडेलला नुकसानापेक्षा प्रत्यक्ष रचनेवर लक्ष केंद्रित करण्यास मदत करू शकते. "बनावट टेक्सचर संकेत" कमी करणे हे ध्येय आहे जेणेकरून अपस्केलरला गोंगाट करणाऱ्या इनपुटवरून आत्मविश्वासाने अंदाज लावण्यास भाग पाडले जाऊ नये.
फोटो अपस्केलिंगपेक्षा व्हिडिओ अपस्केलिंग का कठीण आहे
व्हिडिओ अपस्केलिंग फक्त एका स्थिर प्रतिमेसाठी चांगले नसून, फ्रेम्समध्ये सुसंगत असले पाहिजे. जर तपशील फ्रेम-टू-फ्रेममध्ये चमकत असतील तर परिणाम जलद विचलित करणारा बनतो. व्हिडिओ-केंद्रित दृष्टिकोन पुनर्बांधणी स्थिर करण्यासाठी आणि चमकणाऱ्या कलाकृती टाळण्यासाठी शेजारच्या फ्रेम्समधील तात्पुरती माहिती वापरतात. अनेक वर्कफ्लोमध्ये डीनॉइज, विशिष्ट स्त्रोतांसाठी डीइंटरलेसिंग आणि पर्यायी ग्रेन रीइंट्रोडक्शन देखील समाविष्ट आहे जेणेकरून संपूर्ण क्रम कृत्रिमरित्या तीक्ष्ण वाटण्याऐवजी एकसंध वाटेल.
जेव्हा एआय अपस्केलिंग योग्य नसते किंवा त्यावर अवलंबून राहणे धोकादायक असते
एआय अपस्केलिंगला पुरावा म्हणून नव्हे तर वाढीव म्हणून पाहिले जाते. पत्रकारिता, कायदेशीर पुरावे, वैद्यकीय इमेजिंग किंवा फॉरेन्सिक काम यासारख्या उच्च-स्तरीय संदर्भांमध्ये, "विश्वसनीय" पिक्सेल तयार करणे दिशाभूल करू शकते कारण ते कॅप्चर न केलेले तपशील जोडू शकते. एक सुरक्षित फ्रेमिंग म्हणजे ते उदाहरणात्मकपणे वापरणे आणि एआय प्रक्रियेने पुनर्बांधणी केलेले तपशील उघड करणे. जर निष्ठा महत्त्वाची असेल, तर मूळ जतन करा आणि प्रत्येक प्रक्रिया चरण आणि सेटिंग दस्तऐवजीकरण करा.
संदर्भ
-
arXiv - प्रतिमांसाठी सखोल शिक्षण सुपर-रिझोल्यूशन: एक सर्वेक्षण - arxiv.org
-
arXiv - डीप कन्व्होल्यूशनल नेटवर्क्स (SRCNN) वापरून इमेज सुपर-रिझोल्यूशन - arxiv.org
-
arXiv - रिअल-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA डेव्हलपर - NVIDIA DLSS - developer.nvidia.com
-
एएमडी जीपीयूओपन - फिडेलिटीएफएक्स सुपर रिझोल्यूशन २ - gpuopen.com
-
द कॉम्प्युटर व्हिजन फाउंडेशन (CVF) ओपन अॅक्सेस - बेसिकव्हीएसआर: व्हिडिओ सुपर-रिझोल्यूशनमधील आवश्यक घटकांचा शोध (CVPR २०२१) - openaccess.thecvf.com
-
arXiv - जनरेटिव्ह अॅडव्हर्सरियल नेटवर्क्स - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - ज्ञानेंद्रियांचे नुकसान (जॉन्सन आणि इतर, २०१६) - arxiv.org
-
गिटहब - रिअल-ईएसआरजीएएन रेपो (टाइल पर्याय) - github.com
-
विकिपीडिया - बायक्यूबिक इंटरपोलेशन - wikipedia.org
-
टोपाझ लॅब्स - टोपाझ फोटो - topazlabs.com
-
टोपाझ लॅब्स - टोपाझ व्हिडिओ - topazlabs.com
-
अॅडोब मदत केंद्र - अॅडोब एन्हांस > सुपर रिझोल्यूशन - helpx.adobe.com
-
NIST / OSAC - फॉरेन्सिक डिजिटल इमेज मॅनेजमेंटसाठी मानक मार्गदर्शक (आवृत्ती १.०) - nist.gov
-
SWGDE - फॉरेन्सिक प्रतिमा विश्लेषणासाठी मार्गदर्शक तत्त्वे - swgde.org