लॉजिस्टिक रिग्रेशन में स्टेप फ़ंक्शन से सिग्मॉइड तक: अधिक सटीक मॉडल बनाने की पूरी गाइड
परिचय
इस लेख में हम लॉजिस्टिक रिग्रेशन के मूलभूत सिद्धांतों को समझेंगे, विशेष रूप से परसेप्ट्रॉन में उपयोग किए जाने वाले स्टेप फ़ंक्शन की सीमाओं और सिग्मॉइड (लॉजिस्टिक) फ़ंक्शन के साथ बेहतर परिणाम कैसे प्राप्त किए जा सकते हैं। हम मैक्सिमम लाइकलीहूड, क्रॉस‑एंट्रोपी लॉस, और ग्रेडिएंट डिसेंट जैसी तकनीकों को व्यावहारिक उदाहरणों के साथ स्पष्ट करेंगे।
परसेप्ट्रॉन और स्टेप फ़ंक्शन की समस्या
- परसेप्ट्रॉन में अक्सर स्टेप फ़ंक्शन (हैविसाइड) का प्रयोग किया जाता है।
- स्टेप फ़ंक्शन का आउटपुट केवल 0 या 1 होता है, जिससे ग्रेडिएंट‑आधारित ऑप्टिमाइज़ेशन असंभव हो जाता है।
- वीडियो में दिखाया गया कि केवल स्टेप फ़ंक्शन को सिग्मॉइड से बदलने से भी सही वर्गीकरण नहीं मिला, क्योंकि लॉस फ़ंक्शन अभी भी उपयुक्त नहीं था।
सिग्मॉइड (लॉजिस्टिक) फ़ंक्शन का परिचय
- सिग्मॉइड फ़ंक्शन
σ(z) = 1 / (1 + e^{-z})निरंतर और डिफ़रेन्शिएबल है। - यह प्रत्येक डेटा पॉइंट को प्रॉबेबिलिटी के रूप में मान देता है, जिससे मॉडल की अनिश्चितता को मापा जा सकता है।
- इस फ़ंक्शन के साथ हम मैक्सिमम लाइकलीहूड (Maximum Likelihood) को इष्टतम करने की दिशा में काम कर सकते हैं।
मैक्सिमम लाइकलीहूड और क्रॉस‑एंट्रोपी लॉस
- प्रत्येक पॉइंट की प्रॉबेबिलिटी को गुणा करके कुल लाइकलीहूड प्राप्त की जाती है।
- बहुत छोटे प्रॉबेबिलिटी उत्पादों के कारण संख्यात्मक अंडरफ़्लो से बचने के लिए लॉग‑लाइकलीहूड लिया जाता है।
- लॉग‑लाइकलीहूड को न्यूनतम करने के बजाय क्रॉस‑एंट्रोपी को न्यूनतम किया जाता है (क्योंकि
-log(Likelihood) = Cross‑Entropy). - क्रॉस‑एंट्रोपी का फॉर्मूला:
L = - Σ [ y_i * log(p_i) + (1 - y_i) * log(1 - p_i) ]जहाँy_iवास्तविक लेबल औरp_iसिग्मॉइड द्वारा अनुमानित प्रॉबेबिलिटी है।
ग्रेडिएंट डिसेंट द्वारा ऑप्टिमाइज़ेशन
- क्रॉस‑एंट्रोपी का ग्रेडिएंट निकालकर वेट्स (
w) को अपडेट किया जाता है:w := w - η * ∇Lजहाँηलर्निंग रेट है। - यह प्रक्रिया कई इटरेशन तक दोहराई जाती है, जिससे लॉस धीरे‑धीरे घटता है और मॉडल का निर्णय सीमा (decision boundary) डेटा के अनुसार समायोजित होती है।
व्यावहारिक उदाहरण: चार पॉइंट डेटा सेट
- दो वर्गों के चार पॉइंट (दो हरे, दो लाल) को लिया गया।
- दो संभावित रेखाएँ (मॉडल 1 और मॉडल 2) बनाई गईं।
- मॉडल 2 सभी पॉइंट को सही वर्गीकृत करता है, इसलिए उसका क्रॉस‑एंट्रोपी कम और मैक्सिमम लाइकलीहूड अधिक है।
- प्रत्येक पॉइंट के लिए
p_greenऔरp_redकी गणना की गई, फिर सभी प्रॉबेबिलिटी को लॉग‑स्पेस में जोड़कर कुल लॉस निकाला गया। - छोटे डेटा सेट में यह स्पष्ट था, लेकिन बड़े डेटा सेट (10 000+ पॉइंट) में प्रॉडक्ट बहुत छोटा हो जाता है, इसलिए लॉग‑सम या सॉफ़्टमैक्स जैसी तकनीकें आवश्यक होती हैं।
मॉडल चयन का अंतिम कदम
- सभी पॉइंट के लिए प्रॉबेबिलिटी निकालें।
- लॉग‑लाइकलीहूड (या क्रॉस‑एंट्रोपी) का योग करें।
- सबसे छोटा लॉस वाला मॉडल चुनें – यही सबसे अच्छा मॉडल है।
- भविष्य में नए डेटा के लिए वही वेट्स उपयोग करके प्रेडिक्शन करें।
अगले चरण
- अगले वीडियो में ग्रेडिएंट डिसेंट को कोड (Python) में लागू करेंगे और अपना खुद का लॉजिस्टिक रिग्रेशन क्लास बनाएंगे।
- इस प्रक्रिया से आप किसी भी बाइनरी वर्गीकरण समस्या को सटीकता से हल कर सकते हैं।
मुख्य बिंदु
- स्टेप फ़ंक्शन को हटाकर सिग्मॉइड और उचित लॉस फ़ंक्शन (क्रॉस‑एंट्रोपी) का उपयोग करना आवश्यक है।
- मैक्सिमम लाइकलीहूड को लॉग‑स्पेस में बदलकर अंडरफ़्लो से बचा जा सकता है।
- ग्रेडिएंट डिसेंट के बिना मॉडल का इटरेटिव सुधार संभव नहीं है।
लॉजिस्टिक रिग्रेशन में स्टेप फ़ंक्शन की जगह सिग्मॉइड फ़ंक्शन, क्रॉस‑एंट्रोपी लॉस और ग्रेडिएंट डिसेंट का उपयोग करने से मॉडल अधिक स्थिर, सटीक और स्केलेबल बनता है—यही सबसे बड़ा सीख है।
Frequently Asked Questions
Who is CampusX on YouTube?
CampusX is a YouTube channel that publishes videos on a range of topics. Browse more summaries from this channel below.
Does this page include the full transcript of the video?
Yes, the full transcript for this video is available on this page. Click 'Show transcript' in the sidebar to read it.
Helpful resources related to this video
If you want to practice or explore the concepts discussed in the video, these commonly used tools may help.
Links may be affiliate links. We only include resources that are genuinely relevant to the topic.