ChatGPT की पूरी इतिहास: एन्कोडर‑डिकोडर से लेकर बड़े भाषा मॉडल तक

Name: The Epic History of Large Language Models (LLMs) | From LSTMs to ChatGPT | CampusX
Uploaded: 2026-01-23T10:55:39.868989+00:00
Channel: CampusX
Description: Summary and key takeaways on ChatGPT की पूरी इतिहास: एन्कोडर‑डिकोडर से लेकर बड़े भाषा मॉडल तक, covering परिचय हाय दोस्तों, मैं नितीश हूँ और इस वीडियो में मैं
CampusX
Jan 23, 2026
•
3 min read
YouTube video ID: 8fX3rOjTloc
Source: YouTube video by CampusX — Watch original video
PDF
परिचय

हाय दोस्तों, मैं नितीश हूँ और इस वीडियो में मैं आपको ChatGPT की पूरी कहानी बताने वाला हूँ—शुरुआत से लेकर आज के बड़े भाषा मॉडल (LLM) तक। यदि आप डीप लर्निंग, NLP या AI में रुचि रखते हैं, तो यह लेख आपके लिए है।
डीप लर्निंग प्लेलिस्ट का रोडमैप

मॉड्यूल 1 – न्यूरल नेटवर्क (NN): बेसिक आर्टिफिशियल न्यूरल नेटवर्क, रेग्युलराइज़ेशन, ड्रॉपआउट, अर्ली स्टॉपिंग।
मॉड्यूल 2 – कॉन्वॉल्यूशनल न्यूरल नेटवर्क (CNN): इमेज डेटा पर काम, ट्रांसफ़र लर्निंग की अवधारणा।
मॉड्यूल 3 – रीकर्न्ट न्यूरल नेटवर्क (RNN): क्रमबद्ध डेटा, LSTM, GRU, और अन्य लोकप्रिय आर्किटेक्चर।
मॉड्यूल 4 – सीक्वेंस‑टू‑सीक्वेंस (Seq2Seq) मॉडल: एन्कोडर‑डिकोडर, अटेंशन, ट्रांसफ़ॉर्मर, फाइन‑ट्यूनिंग।
मॉड्यूल 5 – जेनरेटिव मॉडल: GAN, ऑटो‑एन्कोडर, और सुपरवाइज़्ड लर्निंग के साथ बड़े भाषा मॉडल बनाना।
Seq2Seq मॉडल की उत्पत्ति

एन्कोडर‑डिकोडर (2014) – इल्या सुवर और टीम ने "Sequence to Sequence Learning with Neural Networks" पेपर में पहला एन्कोडर‑डिकोडर आर्किटेक्चर पेश किया। इनपुट वाक्य को LSTM‑आधारित एन्कोडर संक्षिप्त करता है, फिर डिकोडर इसे लक्ष्य भाषा में अनुवाद करता है।
अटेंशन मैकेनिज्म (2015) – लंबी वाक्य में जानकारी खोने की समस्या को हल करने के लिए अटेंशन आया। डिकोडर अब प्रत्येक आउटपुट शब्द के लिए एन्कोडर के सभी हिडन स्टेट्स में से सबसे प्रासंगिक भाग चुनता है।
ट्रांसफ़ॉर्मर (2017) – "Attention Is All You Need" ने LSTM को पूरी तरह हटाकर केवल अटेंशन पर आधारित मॉडल पेश किया। यह समानांतर प्रोसेसिंग (पैराललिज़्म) को संभव बनाता है, जिससे प्रशिक्षण तेज़ और स्केलेबल हो गया।
ट्रांसफ़र लर्निंग (2018) – ULM‑Fit और BERT जैसे पेपर ने दिखाया कि बड़े अनसुपरवाइज़्ड प्री‑ट्रेनिंग (जैसे लैंग्वेज मॉडलिंग) को फाइन‑ट्यून करके विभिन्न NLP टास्क में बेहतरीन परिणाम मिलते हैं।
बड़े भाषा मॉडल (LLM) – GPT श्रृंखला
GPT‑1 (2018): 117M पैरामीटर, ट्रांसफ़ॉर्मर‑आधारित, ऑटोरिग्रेसिव लैंग्वेज मॉडल।
GPT‑2 (2019): 1.5B पैरामीटर, बड़े डेटा सेट (WebText) पर प्रशिक्षित, टेक्स्ट जेनरेशन में उल्लेखनीय सुधार।
GPT‑3 (2020): 175B पैरामीटर, 45TB टोकन, few‑shot learning की क्षमता।
GPT‑3.5 / ChatGPT (2022): सुपरवाइज़्ड फाइन‑ट्यूनिंग + RLHF (Reinforcement Learning from Human Feedback) के साथ संवादात्मक क्षमताएँ।
GPT‑4 (2023): मल्टी‑मॉडल (टेक्स्ट + इमेज), बेहतर समझ, अधिक स्थिरता।
ChatGPT कैसे बना?

सुपरवाइज़्ड फाइन‑ट्यूनिंग: GPT‑3 पर मानव‑निर्मित संवाद डेटा (प्रॉम्प्ट‑रिप्लाई) जोड़ा गया।
RLHF: मॉडल के कई संभावित उत्तरों को मानव रेटर्स ने रैंक किया; इस रैंकिंग को रिवॉर्ड मॉडल के रूप में उपयोग करके प्रॉम्प्ट‑आधारित पॉलिसी को अपडेट किया गया।
सुरक्षा एवं एथिक्स: हानिकारक आउटपुट को रोकने के लिए फ़िल्टर, कंटेंट पॉलिसी, और निरंतर उपयोगकर्ता फीडबैक लूप लागू किया गया।
ट्रांसफ़ॉर्मर के बाद की चुनौतियाँ

हार्डवेयर लागत: बड़े मॉडल को ट्रेन करने के लिए हजारों GPU‑कोर, उच्च बिजली खर्च (एक छोटे शहर की मासिक ऊर्जा खपत के बराबर)।
डेटा विविधता: बायस कम करने के लिए विभिन्न स्रोतों (वेब, किताबें, फोरम) से टेराबाइट‑स्तर का डेटा आवश्यक।
ट्रेनिंग समय: 45TB डेटा पर प्रशिक्षण में हफ़्तों‑से‑महीने लगते हैं, इसलिए केवल बड़े कंपनियों के पास संसाधन होते हैं।
वर्तमान स्थिति और भविष्य की दिशा

ChatGPT‑4 ने मल्टी‑मॉडल क्षमताएँ जोड़ी हैं, लेकिन अभी भी सीमित कंटेक्स्ट विंडो और कभी‑कभी गलत जानकारी (हैलुसिनेशन) की समस्या है।
ओपन‑AI निरंतर RLHF लूप चलाता है, उपयोगकर्ता थम्स‑अप/थम्स‑डाउन फीडबैक से मॉडल को सुधारता है।
भविष्य में: अधिक कुशल आर्किटेक्चर (Sparse Transformers, Retrieval‑Augmented Generation), ऊर्जा‑संचित प्रशिक्षण, और बेहतर सुरक्षा‑फ़्रेमवर्क की उम्मीद है।
निष्कर्ष

ChatGPT की यात्रा एन्कोडर‑डिकोडर से शुरू होकर अटेंशन, ट्रांसफ़ॉर्मर, बड़े भाषा मॉडल और अंत में मानव‑फ़ीडबैक‑आधारित रिइन्फोर्समेंट लर्निंग तक पहुँची है। प्रत्येक चरण ने पिछले सीमाओं को तोड़कर नई संभावनाएँ खोलीं—आज हम मानव‑समान संवाद करने वाले AI का उपयोग कर रहे हैं, लेकिन अभी भी ऊर्जा, डेटा, और सुरक्षा की चुनौतियाँ बाकी हैं।
ChatGPT का विकास एन्कोडर‑डिकोडर, अटेंशन, ट्रांसफ़ॉर्मर और RLHF जैसी तकनीकों के क्रमिक इंटेग्रेशन का परिणाम है; यह दर्शाता है कि सही आर्किटेक्चर और बड़े डेटा के साथ AI को मानव‑समान संवाद क्षमता तक पहुँचाया जा सकता है, जबकि ऊर्जा‑खपत और एथिकल मुद्दे अभी भी प्रमुख चुनौतियाँ बने हुए हैं।
Frequently Asked Questions

Who is CampusX on YouTube?

CampusX is a YouTube channel that publishes videos on a range of topics. Browse more summaries from this channel below.
Does this page include the full transcript of the video?

Yes, the full transcript for this video is available on this page. Click 'Show transcript' in the sidebar to read it.
ChatGPT कैसे बना?

- **सुपरवाइज़्ड फाइन‑ट्यूनिंग**: GPT‑3 पर मानव‑निर्मित संवाद डेटा (प्रॉम्प्ट‑रिप्लाई) जोड़ा गया। - **RLHF**: मॉडल के कई संभावित उत्तरों को मानव रेटर्स ने रैंक किया; इस रैंकिंग को रिवॉर्ड मॉडल के रूप में उपयोग करके प्रॉम्प्ट‑आधारित पॉलिसी को अपडेट किया गया। - **सुरक्षा एवं एथिक्स**: हानिकारक आउटपुट को रोकने के लिए फ़िल्टर, कंटेंट पॉलिसी, और निरंतर उपयोगकर्ता फीडबैक लूप लागू किया गया।
Helpful resources related to this video

If you want to practice or explore the concepts discussed in the video, these commonly used tools may help.
Deep Learning Book Goodfellow Recommended
गुडफेलो द्वारा लिखित 'Deep Learning' पुस्तक डीप लर्निंग के मूल सिद्धांत समझने में मदद करती है, जो एन्कोडर‑डिकोडर और ट्रांसफ़ॉर्मर जैसी तकनीकों को सीखने के लिए आवश्यक है
Amazon →
Transformers For Natural Language Processing Book
ट्रांसफ़ॉर्मर आर्किटेक्चर और अटेंशन मैकेनिज्म की विस्तृत व्याख्या देता है, जिससे GPT‑सीरीज़ को समझना आसान हो जाता है
Amazon →
Hands-On Machine Learning With Scikit-Learn Keras Tensorflow
व्यावहारिक कोड उदाहरणों के साथ मशीन लर्निंग और डीप लर्निंग को लागू करने में मदद करता है, विशेषकर मॉडल फाइन‑ट्यूनिंग और ट्रांसफ़र लर्निंग के लिए
Amazon →
Nvidia Rtx 3080 Graphics Card
GPU‑आधारित डीप लर्निंग प्रशिक्षण के लिए आवश्यक हार्डवेयर, बड़े भाषा मॉडल को तेज़ी से ट्रेन करने में सहायक
Amazon →
Gpt-3: The Ultimate Guide Book
GPT‑3 और उसके बाद के मॉडल की आर्किटेक्चर, प्रशिक्षण डेटा, और एप्लिकेशन को समझने के लिए विस्तृत गाइड, ChatGPT की पृष्ठभूमि सीखने में उपयोगी
Amazon →
Links may be affiliate links. We only include resources that are genuinely relevant to the topic.
Summarize another video
Full Transcript YouTube

हाय गाइस माय नेम इज नितीश एंड यूर वेलकम
टू माय
[संगीत]
youtube3 के बारे में आई एम प्रेटी श्यर
आपने काफी कुछ ऑलरेडी सुन रखा होगा बट एट
द सेम टाइम
मुझे ऐसा लगता है कि स्टूडेंट्स को पूरी
की पूरी जो स्टोरी है चाट जीपीटी की वह
नहीं पता है सो अगर आपने थोड़ा बहुत डीप
लर्निंग पढ़ रखा है मेरी डीप लर्निंग
प्लेलिस्ट से तो यू आर द राइट पर्सन जिसके
लिए मैंने यह वीडियो बनाया है इस वीडियो
में मैंने क्या किया है कि मैंने चैट
जीपीटी तक का जो पूरा हिस्ट्री है वह कवर
करने की कोशिश की है स्टार्टिंग फ्रॉम
एलएसटीएम सो अगर आपको आरएनएन एलएसटीएम का
थोड़ा आईडिया है तो आप इस वीडियो को बहुत
अच्छे से समझ पाओगे मैंने इस पूरी
हिस्ट्री को पांच स्टेजेस में डिवाइड किया
है और फिर हर स्टेज को बहुत अच्छे से
समझाने की कोशिश की है मैंने हर स्टेज में
क्या इनोवेशन हुआ किसने वो इनोवेशन किया
यह समझाया है उसके बाद उस इनोवेशन में
क्या प्रॉब्लम थी जिससे फिर अगले स्टेज पे
कुछ नया इनोवेशन करने की जरूरत पड़ी यह
समझाया है और ऐसे करते-करते हम इवेंचर
जीपीटी तक पहुंचे सो इफ यू आर समवन हु इज
रियली क्यूरियस कि चैट जीपीटी अ कैसे
पिक्चर में आया कैसे काम करता है उसके
पीछे की टेक्नोलॉजीज कैसी हैं अगर आप इन
सारी चीजों के लिए या इन सारी चीजों को
जानने के लिए क्यूरियस हो तो दिस कैन बी अ
ग्रेट वीडियो फॉर यू थोड़ा लंबा है बिकॉज
ओबवियसली मैंने डेप्थ में जाने की कोशिश
की है बहुत सारे डायग्राम्स बना बना के
आपको समझाने की कोशिश की है बट द आइडिया
इज वेरी सिंपल कि अगर आप एक एआई एंथू
सियास्ट हो चट जीपीडी के फैन हो तो चट
जीपीटी की जो बैक स्टोरी है वो आपको यह
वीडियो पूरा का पूरा समझा देगा सो आई एम
रियली एक्साइड टेड बहुत मेहनत की इस
वीडियो पे आई रियली होप आपको ये वीडियो
पसंद आए लेट्स स्टार्ट द वीडियो तो जब
मैंने ये डीप लर्निंग प्लेलिस्ट प्लान
किया था लास्ट ईयर तो मैंने अपने दिमाग
में पांच मॉड्यूस बनाए थे कि मुझे यह पांच
मॉड्यूस कंप्लीट करने है इस प्लेलिस्ट में
जो सबसे पहला मॉड्यूल था वो था एनएन
आर्टिफिशियल न्यूरल नेटवर्क जो सबसे सिंपल
टाइप ऑफ न्यूरल नेटवर्क होता है सो
मॉड्यूल वन में मेरा प्लान था कि एनएन
अच्छे से कवर करना है साथ ही साथ एक बहुत
इंपोर्टेंट टॉपिक और कवर करना है एंड दैट
इज हाउ टू इंप्रूव द
परफॉर्मेंस ऑफ एन
एनएन तो यहां पर हमने बहुत सारी चीजें
पढ़ी थी रेगुलराइजेशन पढ़ा था ड्रॉप आउटस
पढ़े थे अ अर्ली स्टॉपिंग पढ़ा था यह सारी
चीजें हमने मॉड्यूल वन में कवर की थी उसके
बाद मॉड्यूल टू में मैंने डिसाइड किया था
कि मैं आपको इमेज डाटा के ऊपर काम करना
सिखाऊंगा और वहां पर हम सीएनएन पढ़ेंगे
कन्वो शल न्यूरल नेटवर्क्स तो यहां पर
मेरे दो गोल्स थे पहला आपको सीएनएस कैसे
काम करते हैं यह समझाना और दूसरा एक बहुत
इंपॉर्टेंट कांसेप्ट पढ़ाना जिसको हम
ट्रांसफर लर्निंग बोलते
हैं तो दिस वाज मॉड्यूल टू फिर मॉड्यूल
थ्री में मैंने प्लान किया था कि मैं आपको
आरएनएन पढ़ाऊंगा यह आपको सीक्वेंशियल डाटा
पे डीप लर्निंग कैसे लगाई जाती है वो
सिखाऊंगा तो यहां पर हमारा गोल था आरएनएन
के बारे में पढ़ना और समझना और इसके अलावा
कुछ और जो फेमस आर्किटेक्चर्स है जैसे कि
एलएसटीएम हुआ या फिर जी आरयू हुआ यह पढ़ना
तो यह तीन मॉड्यूस तो हमने कर लिए बट इसके
अलावा मैंने दो और मॉड्यूल प्लान किए थे
सो जो फोर्थ मॉड्यूल था मेरे दिमाग में वह
था सीक्वेंस टू सीक्वेंस
मॉडल्स यहां पर बहुत इंटरेस्टिंग चीजें
हमें पढ़नी है जैसे कि इनकोडर डिकोडर
आर्किटेक्चर
हुआ या फिर अटेंशन मैकेनिज्म
हुआ या फिर उससे भी ज्यादा इंपॉर्टेंट अगर
आप बोलो तो ट्रांसफॉर्मर्स
हुआ और उसके बाद ट्रांसफॉर्मर्स का फाइन
ट्यूनिंग
हुआ तो यह फोर्थ मॉड्यूल मैंने प्लान किया
था और लास्टली मैंने जो एक फिफ्थ मॉड्यूल
प्लान किया था वह था अन सुपरवाइज
लर्निंग यूजिंग डीप
लर्निंग तो यहां पर मेजर्ली गंस के बारे
में पढ़ना था जेनरेटिव एडवर्स नेटवर्क्स
एंड ऑटो इनकोडर्स के बारे में पढ़ना था तो
अभी तक का हमारा प्रोग्रेस यह है कि हमने
इतना तो कवर कर लिया है दिस मच वी हैव
कवर्ड इन लाइक 65
वीडियोस और अब हम लोग मूव करने जा रहे हैं
लास्ट दो मॉड्यूस की
तरफ जो कि यह है और उसमें भी अब हम लोग
नेक्स्ट मूव करेंगे सीक्वेंस टू सीक्वेंस
मॉडल्स की तरफ जो आज के डेट में इंडस्ट्री
में बहुत फेमस हो रखे हैं और यह जो आज की
डेट में आप एलएल एम्स के बारे में सुन रहे
हो चार्ट जीपीटी के बारे में सुन रहे हो
ओपन एआई के बारे में सुन रहे हो इन सबके
बारे में अगर आपको थोड़ा और डिटेल में
समझना है तो हमारा यह जो फोर्थ मॉड्यूल है
आपको बहुत पर्सपेक्टिव देगा तो गोइंग
फॉरवर्ड आज का वीडियो अगर आप मिला दो और
आगे के 10 12 वीडियोस अगर आप मिला दो तो
वी आर गोइंग टू कवर दिस फोर्थ मॉड्यूल इन
आवर डीप लर्निंग प्लेलिस्ट सो
स्टार्ट एंड लेट्स डिस्कस कि सीक्वेंस टू
सीक्वेंस मॉडल्स या फिर इसको सीक टू सीक
बोला जाता है यह मॉडल्स क्या है और कैसे
काम करते हैं तो गाइस सीक्वेंस टू
सीक्वेंस मॉडल्स जो होते हैं इनके स्टोरी
की जो शुरुआत है ना वह एक्चुअली आरएनएन से
होती है आरएनएन से या फिर आप बोल सकते हो
सीक्वेंशियल डाटा से होती है सो अगर आपको
याद होगा मैंने आपको बताया था कि नंस जो
होते हैं वो स्पेसिफिकली सीक्वेंशियल डाटा
के ऊपर काम करने के लिए बनाए गए थे
सीक्वेंशियल डटा मतलब जहां पर डेटा में
कोई सीक्वेंस फॉलो हो रहा हो मैंने आपको
कुछ एग्जांपल्स भी दिए थे इस तरह के डेटा
का जैसे कि बेसिकली
लैंग्वेज वहां पर हम जो सेंटेंसेस यूज
करते हैं अभी जो मैं आपको यह वीडियो में
बोल रहा हूं तो यहां पर सीक्वेंस का कुछ
मीनिंग है कुछ वर्ड्स बाद में आ रहे हैं
कुछ पहले आ रहे हैं तो वो जो ऑर्डर है
वर्ड्स का उसका मीनिंग है इसके अलावा
मैंने आपको और बताया था टाइम सीरीज बेस्ड
डाटा दिस इज आल्सो एन एग्जांपल जहां पर
सीक्वेंस बहुत मैटर करता है बायो
इनफॉर्मेटिक्स में बहुत जगहों पे जीनस
वगैरह का सीक्वेंस होता है तो उस उस तरह
की प्रॉब्लम्स के ऊपर आरएनएन बहुत अच्छा
काम करते हैं तो अगर आपको आरएनएन के सारे
वीडियोस याद होंगे तो मैंने आपको वहां पर
एक पर्टिकुलर वीडियो में टाइप्स ऑफ आरएनएन
पढ़ाया था
जहां पर मैंने आपको यह बताया था कि आरएनएन
के कितने टाइप्स होते हैं सो अगर आपको याद
होहुआ तो देर आर थ्री टाइप्स थ्री मेजर
टाइप्स उनमें से सबसे पहला जो टाइप था ना
उसको हम बुलाते हैं मेनी टू
वन
आरन यहां पर क्या होता है कि आपके पास जो
इनपुट डटा होता
है उसमें सीक्वेंस होता
है और जो आउटपुट डाटा होता है उसमें कोई
सीक्वेंस नहीं होता वो सिंपल एक स्केलर
होता है
नंबर हो सकता है और भी कुछ हो सकता है
इसका बहुत अच्छा एग्जांपल हमने पढ़ा था और
वो था सेंटीमेंट
एनालिसिस वहां पर हमने देखा था कि आपका जो
इनपुट था वह मूवी के रिव्यूज थे मतलब
टेक्स्ट था टेक्स्ट था मतलब उसमें
सीक्वेंस होगा और हमें प्रिडिक्ट करना था
कि वह पॉजिटिव है या नेगेटिव है तो जो
आउटपुट था वह स्केलर था तो सेंटीमेंट
एनालिसिस इज अ वेरी गुड एग्जांपल ऑफ मेनी
टू वन तो दिस वाज द फर्स्ट टाइप ऑ आर एन
फिर हमने एक सेकंड टाइप पढ़ा था जिसको हम
बुलाते हैं वन टू मेनी यहां पर जो आपका
इनपुट होता है वह एक स्केलर होता है
स्केलर नॉट नेसेसरीली स्केलर बट एक ऐसा
इनपुट जहां पर कोई सीक्वेंस नहीं
है और जो आउटपुट होता है वह कुछ ऐसा होता
है जिसमें सीक्वेंस होता है इसका मैंने
आपको एक एग्जांपल बताया था पहला एग्जांपल
मैंने आपको बताया
था इमेज कैप्शनिंग
यह एक बहुत इंटरेस्टिंग प्रोजेक्ट है जहां
पर आप क्या करते हो इनपुट में एक इमेज
देते हो और आउटपुट में आप उसका एक
टेक्चुअल डिस्क्रिप्शन जनरेट करते
हो ठीक है जैसे एक इमेज में लेट्स से आपने
एक फोटो दिया जहां पर एक बंदा घोड़ा चला
रहा है घोड़े को चला रहा है
तो आउटपुट वड बी समथिंग लाइक दैट अ मैन इ
राइडिंग अ हॉर्स तोय यह एक बहुत
इंटरेस्टिंग प्रोजेक्ट था ग इसको बहुत
एक्सटेंसिवली यूज करता है ग इमेज सर्च में
तो दिस वाज वन एग्जांपल ऑफ वन टू मेनी और
यह हमारा सेकंड टाइप ऑफ आरएनएन था उसके
बाद मैंने आपको एक थर्ड टाइप बताया था
जिसको हम मेनी टू मेनी बुलाते हैं मेनी टू
मेनी यहां पर क्या होता है इनपुट में भी
आप एक ऐसा डाटा देते हो जिसमें सीक्वेंस
होता है और आप आउटपुट में ऐसा डाटा
एक्सपेक्ट करते हो जिसमें सीक्वेंस होता
है दोनों जगह सीक्वेंस होता है इसके दो
टाइप्स थे एक
था जहां पर आप
फिक्स्ड
लेंथ एक्चुअली इसको फिक्स लेंथ नहीं बोलते
इसको हम जितना मुझे याद आ रहा है
सिंक्रोनस मेनी टू मेनी बुलाते
हैं सिंक्रोनस क्यों बिकॉज जितने आपके
इनपुट्स है उतने ही आपके आउटपुट्स होंगे
यू कैन सी इस तरह के मैंने आपको दो
एग्जांपल दिए थे एक था पार्ट्स ऑफ स्पीच
टैगिंग जहां पर आप फॉर एवरी गिवन वर्ड
पार्ट्स ऑफ स्पीच फिगर आउट करते हो और
दूसरा मैंने आपको बताया था नेम एंटिटी
रिकॉग्निशन जहां पर फॉर एवरी गिवन वर्ड आप
उसको एस एन एंटिटी रिकॉग्नाइज करते हो तो
दिस वास सिंक्रोनस एंड सेकंड वन इ
सिंक्रोनस सिंक्रोनस में क्या होता है कि
यहां पर भीन में सीक्वेंस ही होता है और
आउटपुट में भी सीक्वेंस होता है बट इन
दोनों का लेंथ जो होता है वह बराबर नहीं
होता हो भी सकता है नहीं भी हो सकता ठीक
है जैसे यहां पर हो सकता है आपने इनपुट
में चार टाइम स्टेप्स में इनपुट प्रोवाइड
किया बट यहां पर फाइव टाइम स्टेप्स में
आउटपुट निकल के आया ऐसा पॉसिबल है और इसका
एक बहुत अच्छा एग्जांपल होता है
मशीन
ट्रांसलेशन बेसिकली
लैंग्वेज ट्रांसलेशन जैसे कि गल ट्रांसलेट
होता है गल ट्रांसलेट में इफ यू रिमेंबर
आप एक
लैंग्वेज इनपुट में देते
हो और दूसरे लैंग्वेज में आपको आउटपुट
मिलता
है यू कैन
सी यहां पर देर आर थ्री इनपुट्स
बट सिक्स आउटपुट्स तो इसको बोला जाता है
सिंक्रोनस मेनी टू मेनी आर एनएन का
आर्किटेक्चर तो आपका जो सीक्वेंस टू
सीक्वेंस मॉडल्स होते हैं
ना सीक्वेंस टू सीक्वेंस जो मॉडल्स होते
हैं या सीक टू सीक जो मॉडल्स होते हैं वो
स्पेसिफिकली इस प्रॉब्लम को सॉल्व करने के
लिए बनाए
गए जहां पर आपके पास अ एक मेनी टू मेनी
प्रॉब्लम है और वो भी असंक्रामक
है तो इसको सॉल्व करने के
लिए सीक्वेंस टू सीक्वेंस मॉडल्स आए तो
अभी तक हम आरएनएन में जब पढ़ रहे थे तो हम
इन सभी के बारे में पढ़ रहे
थे बट अब जब हम मॉड्यूल फोर में
स्पेसिफिकली सीक्वेंस टू सीक्वेंस मॉडल्स
की बात करेंगे तो वी विल बी टॉकिंग मोर
अबाउट दिस आर्किटेक्चर हम इसकी बात नहीं
करेंगे हम इसकी बात नहीं करेंगे इसकी बात
नहीं करेंगे वी विल बी टॉकिंग अबाउट दिस
पर्टिकुलर आर्किटेक्चर
जहां पर हमारे पास इनपुट में भी सीक्वेंस
है आउटपुट में भी सीक्वेंस है और जरूरी
नहीं है कि इन दोनों सीक्वेंसेस का जो
लेंथ है वह बराबर होगा ठीक है तो यह काइंड
ऑफ मैंने आपको एक एक वट बताया कि सीक्वेंस
टू सीक्वेंस मॉडल्स किस तरह के डाटा और
किस तरह के प्रॉब्लम्स पर एप्लीकेबल होते
हैं अब ऐसा नहीं है कि सीक्वेंस टू
सीक्वेंस मॉडल्स जो होते हैं वह सिर्फ
मशीन ट्रांसलेशन वाला टास्क प ही
एप्लीकेबल है इसके अलावा और भी बहुत सारे
ऐसे टास्क है जहां पर आप सीक्वेंस टू
सीक्वेंस मॉडल्स को
डिप्लॉयड और टास्क बताता हूं एक बहुत
इंटरेस्टिंग टास्क है टेक्स्ट समरा इजेशन
का सो बेसिकली आपके पास एक बहुत बड़ा सा
चंक ऑफ टेक्स्ट है और आपको उसका समरी
चाहिए तो यहां पर जो बड़ा सा टेक्स्ट है व
भी एक सीक्वेंस है और उसे आपको जो समरी
चाहिए वह भी एक सीक्वेंस है तो इस
प्रॉब्लम के ऊपर भी आप क्या कर सकते हो
सीक्वेंस टू सीक्वेंस मॉडल को अप्लाई कर
सकते हो एक और इंटरेस्टिंग एप्लीकेशन होता
है क्वेश्चन आंसरिंग
सिस्टम मतलब आपके यूजर ने आपसे एक
क्वेश्चन पूछा है और आपको उसका आंसर जनरेट
करना है तो यहां पर जो क्वेश्चन है वो एक
टेक्स्ट है तो सीक्वेंस हुआ और भी टेक्स्ट
है तो वो सीक्वेंस हुआ तो इस तरह के
मॉडल्स को आप जनरली किसी
नॉलेज बेस के ऊपर ट्रेन करते
हो लाइक विकिपीडिया एक्सेट्रा और फिर आप
उससे क्वेश्चंस पूछ सकते हो थर्ड
इंटरेस्टिंग एग्जांपल है चैट बॉट या
कन्वर्सेशन एआई जहां पर आप एक डायलॉग बेस
सिस्टम के थ्रू एक चैट बॉट से बात करते हो
सो यहां पर भी आपको इनपुट जो मिलता है वो
एक टेक्स्ट होता है मतलब सीक्वेंस होता है
और जो रिस्पांस चाट बॉट देता है वह भी एक
टेक्स्ट होता है एस
इन सीक्वेंस होता है ठीक है और भी बहुत
सारे एग्जांपल्स है जैसे कि अ स्पीच टू
टेक्स्ट सिस्टम्स हो
गए
राइट जो
सीक्वेंस ऑफ डाटा है टेक्स्ट जो निकल के आ
रहा है इंग्लिश में ट इ आल्सो सीक्वेंस ऑफ
डेटा तो यही अच्छी बात है सीक्वेंस टू
सीक्वेंस मॉडल्स की कि वह कई तरह के
डिफिकल्ट एनएलपी टास्क को सॉल्व कर पाता
है एंड दैट इज वन ऑफ द मेन रीजन की आज की
डेट में मार्केट में बहुत वैल्यू है
सीक्वेंस टू सीक्वेंस मॉडल्स की तो जस्ट
वांटेड टू गिव यू सम पर्सपेक्टिव की
अपार्ट फ्रॉम लैंग्वेज ट्रांसलेशन और
क्या-क्या चीजें हैं जो सीक्वेंस टू
सीक्वेंस मॉडल्स कर सकते हैं और हम इनमें
से एक दो चीजें बना के भी देखेंगे अब आगे
बढ़ते हैं और अब हम लोग एक ब्रीफ हिस्ट्री
देखेंगे जहां पर हम सीक्वेंस टू सीक्वेंस
मॉडल कहां से स्टार्ट हुआ और वहां से चैट
जीपीटी तक कैसे पहुंचा यह हम लोग डिस्कस
करेंगे तो गाइस ये जो पूरा हिस्ट्री है
सीक्वेंस टू सीक्वेंस मॉडल्स का इसको
कंपलीटली अगर आप स्टडी करना चाहते हो तो
बहुत अच्छा होगा अगर आप इसको छोटे-छोटे
पार्ट्स में डिवाइड करो तो इफ यू आस्क मी
मैं इस पूरी हिस्ट्री को फाइव इंपॉर्टेंट
स्टेजेस में डिवाइड करना चाहूंगा सो सबसे
पहला जो सॉल्यूशन निकल के आया था सीक्वेंस
टू सीक्वेंस टास्क को सॉल्व करने के लिए
वो था एनकोड डिकोडर
आर्किटेक्चर यह सलूशन 2014 में प्रपोज
किया गया था और दिस वास एक्चुअली वन ऑफ द
फर्स्ट अटेम्प्ट्स टू सॉल्व सीक्वेंस टू
सीक्वेंस प्रॉब्लम्स लाइक मशीन ट्रांसलेशन
ओबवियसली इसमें कुछ फ्लॉस थे और इसीलिए
फिर इसके बाद एक सेकंड सॉल्यूशन प्रपोज
किया गया स्टेज टू में जिसको हम बोलते हैं
अटेंशन मैकेनिज्म
शायद आपने इसका नाम भी सुना होगा बहुत
फेमस टर्म है डीप लर्निंग में अटेंशन
मैकेनिज्म के आने के बाद थोड़ा
इंप्रूवमेंट हुआ बट फिर भी कुछ परेशानियां
थी जिसको सॉल्व करने के लिए एक बहुत ही
पावरफुल आर्किटेक्चर का का काइंड ऑफ
क्रिएशन हुआ जिसको हम ट्रांसफॉर्मर के नाम
से जानते हैं और आई गेस फॉर श्यर आपने
ट्रांसफॉर्मर्स का नाम सुना होगा इनफैक्ट
चैट जीपीटी में जो लास्ट में टी है यह
ट्रांसफॉर्मर है ठीक है तो बहुत ही
पावरफुल आर्किटेक्चर है और इसको हम लोग
आगे चलके बहुत डिटेल में पढ़ेंगे उसके
बाद ट्रांसफॉर्मर्स को यूज करके एक
कंपलीटली नया पैराडाइम शिफ्ट आया एनएलपी
के डोमेन में जिसको हम ट्रांसफर लर्निंग
बोलते
हैं यह कंप्यूटर विजन के डोमेन में ऑलरेडी
बहुत फेमस टर्म है बट एनएलपी में यह थोड़ा
बाद में आया था बट इसके आने के बाद चीजें
बहुत इंप्रूव की और फिर लास्टली हम पहुंचे
फाइनल स्टेज में जिनको हम एलएल एम्स
बुलाते हैं लार्ज लैंग्वेज मॉडल्स जिसका
बहुत अच्छा एग्जांपल है चैट जीपीटी तो अब
हम क्या करेंगे हम इन सारे स्टेजेस को हो
ना एक बार ब्रीफ डिस्कस करेंगे और एक
ओवरव्यू लेने की कोशिश करेंगे बिकॉज आगे
चलके मैं चाहता हूं कि हम इन सारे स्टेजेस
को डिटेल में पढ़े तो पहले से अगर आपके
पास एक ओवरव्यू होगा ना तो आप बहुत बढ़िया
पर्सपेक्टिव लेकर के आगे बढ़ो ग ठीक है तो
[संगीत]
दैट्ची पहले हम लोग बात करेंगे स्टेज वन
की जहां पर हम डिस्कस करेंगे एनकोड डिकोडर
आर्किटेक्चर सो यह पूरी स्टोरी स्टार्ट
होती है 2014 में 2014 में ग के अंदर एक
टीम थी जो यह बंदा लीड कर रहा था आई एम
प्रेटी शर आप इनको जानते होंग हिज नेम इज
इलिया सुवर ही इज करेंटली द कोफाउंडर ऑफ
ओपन एआई एंड ही इज लाइक वन ऑफ द मेन गाइस
बिहाइंड चट जीपीटी वेरी वेरी प्रॉमिनेंट
फिगर आज के डीप लर्निंग के इंडस्ट्री में
सो ही अलोंग विद हिज कलीग्स दस टू गाइस दे
एक्चुअली रोट अ पेपर बाय द नेम ऑफ
सीक्वेंस टू सीक्वेंस लर्निंग विथ न्यूरल
नेटवर्क्स एंड दिस बिकम अ सेमिनल पेपर
लाइक बहुत ही
ज्यादा पॉपुलर हो गया यह पेपर इस पेपर में
इन लोगों ने यह प्रपोज किया कि सीक्वेंस
टू सीक्वेंस
लर्निंग एक ऐसा प्रॉब्लम है जो अभी तक
सॉल्व नहीं हो पाया है ठीक से सो दे
प्रपोज्ड अ डिफरेंट आर्किटेक्चर टू सॉल्व
दिस प्रॉब्लम एंड दे कॉल्ड दिस
आर्किटेक्चर इनकोडर डिकोडर नेटवर्क ठीक है
तो मैं ज्यादा तो नहीं समझा पाऊंगा आपको
बिकॉज हम बस इंट्रोडक्शन में बात कर रहे
हैं अगला वीडियो जो है वो पूरा का पूरा
इनकोडर डिकोडर नेटवर्क के ऊपर होगा वहां
पे हम डिटेल में इसका पूरा मैथस समझेंगे
फिलहाल मैं कोशिश करता हूं आपको एक सिंपल
ओवरव्यू देने का सो सीक्वेंस टू सीक्वेंस
टास्क में क्या होता है कि आपके पास एक
इनपुट सीक्वेंस होता
है और आप उससे एक आउटपुट सीक्वेंस क्रिएट
करना चाहते हो जैसे कि मशीन ट्रांसलेशन का
एग्जांपल ले लेते हैं वहां पर मान लो कि
हमें
इंग्लिश से हिंदी में ट्रांसलेट करना है
मान लो हमारा इंग्लिश सेंटेंस है आई लव
इंडिया और ओबवियसली जब आप इसको ट्रांसलेट
करोगे हिंदी में तो कुछ ऐसा आएगा मुझे
भारत से प्यार
है समथिंग लाइक दैट ठीक है तो इन लोगों ने
क्या प्रपोज किया एक बहुत सिंपल और
एलिगेंट सलूशन प्रपोज किया इन्होंने बोला
कि हमारे आर्किटेक्चर के दो पार्ट्स होंगे
एक होगा इनकोडर और दूसरा होगा डिकोडर एन
कोडर का काम क्या होगा कि इनकोडर आपका जो
इनपुट सीक्वेंस है उसको प्रोसेस
करेगा वर्ड बाय
वर्ड और उसको उस पूरे इंफॉर्मेशन को
कंप्रेस कर
देगा ठीक है और उसी कंप्रेस इंफॉर्मेशन को
वह डिकोडर के पास भेजेगा अब डिकोडर का काम
क्या होगा कि डिकोडर इस कंप्रेस्ड
इंफॉर्मेशन को उठाएगा और इससे एक-एक करके
आउटपुट प्रोड्यूस करेगा व्हिच इज लाइक
पहली बार में मुझे निकलेगा फिर भारत
निकलेगा फिर से निकलेगा फिर प्यार निकलेगा
फिर है निकलेगा ठीक है अब आपके मन में य
क्यूरियोसिटी आ रही होगी कि इस एन कोडर के
अंदर और इस डिकोडर के अंदर एगजैक्टली है
क्या तो एक्चुअली बहुत सिंपल सी चीज है द
आंसर इज एलएसटीएम इन लोगों ने जो रिसर्च
किया उसके हिसाब से इन लोगों ने यहां पर
एक एलएसटीएम सेल को डाल दिया और सिमिलरली
यहां पर भी एक एलएसटीएम सेल को डाल दिया
दिया आप जी आरयू भी यूज कर सकते हो आप
आरएनएन भी यूज कर सकते हो बट इस पेपर में
इन लोगों ने एलएसटीएम के साथ काम किया तो
बेसिकली हो क्या रहा है अगर आप ये दूसरा
डायग्राम देखो तो इसमें थोड़ा ज्यादा इलब
तरीके से समझाया हुआ है कि यहां पर अंदर
में एक आरएनएन सेल है आरएनएन सेल कुछ भी
हो सकता है इट कुड बी एन आरएनए और इट कुड
बी एन एलएसटीएम और जी आरयू कुछ भी हो सकता
है हम मान के चलते हैं कि ये एलएसटीएम है
अब यह एलएसटीएम में आप क्या कर रहे हो वन
बाय वन बेसिस पे वर्ड बाय वर्ड बेसिस पे
आप अपने सेंटेंस का एक-एक वर्ड भेज रहे हो
एट एवरी टाइम स्टेप सो सबसे पहले यहां पर
आप ये सेंटेंस भेज रहे हो ट्रांसफॉर्मर्स
आर ग्रेट तो आपने सबसे पहले टाइम स्टेप पे
ट्रांसफॉर्मर्स भेजा अब क्या हुआ कि अंदर
जो एलएसटीएम है उसके जो इंटरनल स्टेट्स
हैं जो इंटरनल स्टेट्स है व्हिच इज द सेल
स्टेट एंड द हिडन स्टेट वो बेसिकली पूरे
टाइम अपडेट हो रहे हैं और वो अभी तक जितना
सेंटेंस आपने भेजा है उस पूरे इंफॉर्मेशन
को काइंड ऑफ समरा इज करते जा रहे हैं
ठीक है जैसे ही आपने लास्ट वर्ड भेजा तो
लास्ट वर्ड के बाद जो फाइनल आउटपुट निकलता
है उसको आप ऐसे समझ सकते हो कि वह एक
कंप्रेस्ड
रिप्रेजेंटेशन
है ऑफ दिस
एंटायस अब इस कंप्रेस्ड रिप्रेजेंटेशन को
आप डिकोडर में भेजते हो डिकोडर में भी सेम
सेटअप है यहां पर भी अंदर में एक एलएसटीएम
सेल है जिसको आप इनपुट में ये कंप्रेस
रिप्रेजेंटेशन भेज रहे हो और डिकोडर क्या
करेगा कि स्टेप बाय स्टेप मैनर में आपको
आउटपुट कैलकुलेट करके देगा जैसे यहां पर
जो आउटपुट है वो जर्मन में है आई गेस तो
दिस इज हाउ एनकोर डिकोडर मॉड्यूस वर्क
ओबवियसली मैंने बहुत डिटेल में आपको चीजें
नहीं समझाई इसके अंदर काफी मैकेनिक्स है
जो आपको अच्छे से समझना पड़ेगा पढ़ना
पड़ेगा बट आई आई होप मैं आपको एक ओवरव्यू
दे पाया
अब हुआ क्या कि यह इनकोडर डिकोडर मॉड्यूल
जो
था यह अच्छा काम करता था जब आप इसको स्मॉल
सेंटेंसेस देते
थे अगर आप इसको छोटे-छोटे सेंटेंसेस देते
थे तो यह ट्रांसलेशन सही से कर देता था बट
जैसे ही आप इसको लोंगर सेंटेंसेस देने लग
जाओ लेट्स से एक पूरा पैराग्राफ आपने दे
दिया और आप बोल रहे हो कि भाई इस पूरे
पैराग्राफ को इंग्लिश से हिंदी में
कन्वर्ट करो
तो वहां पर क्या हो रहा था कि जो आउटपुट
निकल के आ रहा था वह उतना सही नहीं था
मतलब मीनिंग नहीं बन रहा था मतलब द
ट्रांसलेशन यूज टू लूज इट्स मीनिंग ठीक है
मतलब बेसिकली कुछ भी बकवास प्रिंट हो रहा
था तो लोगों ने समझने की कोशिश की कि इसके
पीछे क्या रीजन है तो इसके पीछे एक्चुअली
एक बहुत सिंपल सा रीजन है रीजन क्या है कि
यह जो पूरा आर्किटेक्चर है इसमें क्या कर
रहे हो आप कि आप वर्ड बाय वर्ड बेसिस पर
इनपुट में इनकोडर के अंदर इनपुट भेज रहे
हो और यह जो इनकोडर है यह क्या कर रहा है
उस पूरे के पूरे इंफॉर्मेशन को समरा इज कर
रहा है इनटू दिस वेक्टर इसको बाय द वे
कांटेक्ट वेक्टर बोला जाता है यह हम आगे
पढ़ेंगे तो हो क्या रहा है कि इस पूरे
इंफॉर्मेशन को कंप्रेस करने का जो पूरा
लोड है वह इस कांटेक्ट वेक्टर के ऊपर है
अब प्रॉब्लम क्या है कि अगर यह सेंटेंस
बहुत लंबा हो जाए इसमें मान लो 100 वर्ड्स
आ
जाए तो यह जो शुरू वाले वर्ड्स है ना वो
काइंड ऑफ लाइक भूलने लग जाता है हमारा
नेटवर्क तो बेसिकली मेमोरी लॉस का
प्रॉब्लम होने लग जाता है शॉर्ट टर्म
मेमोरी का प्रॉब्लम होने लग जाता है तो
दैट इज वई जो डिकोडिंग हो रही थी वह सही
से नहीं हो पा रही थी सो जो मेन प्रॉब्लम
है इस आर्किटेक्चर का वह यह है कि एट द
एंड सब कुछ जो भी डिकोड होगा वो इस बात पर
डिपेंड कर रहा है कि की लास्ट टाइम स्टेप
पे आउटपुट क्या है व्हाट इज दैट
कॉन्टेक्स्ट वेक्टर तो बिकॉज़ ऑफ दैट जो
लंगर सेंटेंसेस थे वहां पे अच्छा
ट्रांसलेशन नहीं हो पा रहा था सो इसी
प्रॉब्लम को सॉल्व करने के लिए फिर एक नया
मैकेनिज्म डेवलप किया गया जिसको हम बोलते
हैं अटेंशन मैकेनिज्म और वही हम लोग
नेक्स्ट डिस्कस करेंगे तो चलो गाइज लेट्स
मूव ऑन टू स्टेज टू ऑफ द हिस्ट्री स्टेज
टू है अटेंशन मैकेनिज्म
अब अटेंशन मैकेनिज्म क्या होता है ये
समझने के लिए एक बार फिर से डिस्कस कर
लेते हैं कि एनकोड डिकोडर आर्किटेक्चर में
क्या प्रॉब्लम था जैसा कि मैंने आपको
बताया था इनकोडेड डिकोडेड आर्किटेक्चर
क्या करता है कि मशीन ट्रांसलेशन के
प्रॉब्लम को बहुत सिंपल तरीके से हैंडल
करता है जो आपका इनपुट सीक्वेंस होता है
वो इनकोडर में चला जाता है और फिर क्या
करता है डिकोडर जो है वो वन बाय वन स्टेप
बाय स्टेप आउटपुट सीक्वेंस को प्रोड्यूस
करता है सो अगर आपने यहां पर इंग्लिश
सेंटेंस डाला वर्ड बाय वर्ड यहां से आपको
हिंदी में वर्ड बाय वर्ड सेंटेंस आउटपुट
मिलता है ठीक है अभी प्रॉब्लम क्या है
स्टेट में इस आर्किटेक्चर में कि मैंने
थोड़ी देर पहले भी हालाकि ये डिस्कस किया
था कि आप वन बाय वन जब अपने वर्ड्स भेज
रहे हो इनकोडर में तो यह सारे के सारे
वर्ड्स काइंड ऑफ समरा इज होते रहते हैं और
एंड में जब यह पूरा सीक्वेंस खत्म हो जाता
है तो वह पूरा का पूरा जो समरी है व एक
कॉन्टेक्स्ट वेक्टर में रिटेन हो जाता है
और यही कॉन्टेक्स्ट वेक्टर डिकोडर यूज
करता है डिकोड करने के लिए बट द प्रॉब्लम
विद दिस आर्किटेक्चर इज कि इस कॉन्टेक्स्ट
वेक्टर के ऊपर बहुत कुछ डिपेंड कर रहा है
मतलब इस पूरे सेंटेंस की जो समरी है या
रिप्रेजेंटेशन है वो सिर्फ और सिर्फ इस
कांटेक्ट वेक्टर पर डिपेंडेंट है नाउ द
प्रॉब्लम अराइज व्हेन यू हैव अ वेरी लॉन्ग
इनपुट
सीक्वेंस इफ यू हैव अ वेरी लॉन्ग इनपुट
सीक्वेंस मतलब बहुत बड़ा सेंटेंस है जनरली
एक्सपेरिमेंटली प्रूव किया गया है कि अगर
30 वर्ड से ज्यादा
है तो फिर आपका जो ट्रांसलेशन होता है
डिकोडर के थ्रू इट डज नॉट मेक एनी सेंस
जैसे मैं आपको एक एग्जांपल देता हूं यह
सेंटेंस पढ़ो इस सेंटेंस में फर्स्ट ऑफ ऑल
आप नोटिस करोगे कि ये थोड़ा बड़ा सेंटेंस
है मैं एक बार पढ़ रहा हूं ये सेंटेंस
सैडली मिस्टेकन ही
रियलाइफ ऑफर वाज एक्चुअली एन इनक्रेडिबल
अपॉर्चुनिटी दैट लीड टू सिग्निफिकेंट
पर्सनल एंड प्रोफेशनल ग्रोथ ठीक है अब यह
सेंटेंस को अगर मैं इस इनकोडर में डालू तो
सबसे पहला जो वर्ड रहेगा वह रहेगा सैडली
यहां पर सैडली
आएगा उसके बाद आएगा मिस्टेकन सेकंड नंबर
पर फिर ही फिर रिलाइज और काफी एंड में
जाकर ग्रोथ आएगा अब प्रॉब्लम क्या है कि
थोड़ा रीसेंसी बायस होने की वजह से जो
शुरू वाले वर्ड्स है वो काइंड ऑफ अच्छे से
कांटेक्ट वेक्टर में कैप्चर नहीं हो पाते
तो मान लो थोड़ी देर के लिए अगर ये फर्स्ट
दो वर्ड सही से कैप्चर नहीं हो पाए तो अब
आप इस सेंटेंस को दोबारा पढ़ो और यहां से
स्टार्ट करो यू वुड
रियलाइफ मेंट था वही बदल गया और यही
प्रॉब्लम होता है जब आप इनकोडर डिकोडर
आर्किटेक्चर में लंबे सेंटेंसेस भेजते हो
पैराग्राफ्स भेजते हो जो ट्रांसलेशन का जो
क्वालिटी है वो खराब हो जाता है इनफैक्ट
एक रिसर्च में एक ग्राफ भी प्लॉट करके
लोगों ने समझाने की कोशिश की थी जहां पर
एक्सेस में
था ट्रांसलेशन का
क्वालिटी इसको मेजर करने के लिए एक
मैट्रिक यूज किया जाता है जिसको हम ब्लू
स्कोर बोलते
हैं ठीक है और यहां पर है नंबर ऑफ वर्ड्स
इन द इनपुट सीक्वेंस और यह जो ग्राफ था यह
कुछ ऐसा था जहां पर जैसे ही आप 30 वर्ड्स
क्रॉस कर रहे हो जो ट्रांसलेशन क्वालिटी
है वो डिग्रेड करने लग जाता है तो दिस वाज
द बिगेस्ट प्रॉब्लम विद अटेंशन आई एम सॉरी
इनकोडर डिकोडर मॉड्यूल दिस वाज द बिगेस्ट
प्रॉब्लम विद इनकोडर डिकोडर आर्किटेक्चर
कि लंबे सीक्वेंसेस को सही से ट्रांसलेट
नहीं कर पा रहा था इसी प्रॉब्लम को सॉल्व
करने के लिए आया अटेंशन मैकेनिज्म सो 201
में योशुआ बेंज जो है ही इज अ वेरी फेमस
रिसर्चर और उनकी जो टीम
है दज गाइस रोट अ पेपर बाय द टाइटल न्यूरल
मशीन ट्रांसलेशन बाय जॉइंट लर्निंग टू
अलाइन एंड ट्रांसलेट यह एक पेपर आया जो कि
पहली बार अटेंशन मैकेनिज्म को इंट्रोड्यूस
किया ठीक है यहां पर अगर आप इस पेपर का
सिर्फ एब्स्ट्रेक्ट भी पढ़ोगे तो यू वुड
फाइंड यहां पर लिखा हुआ है अ पोटेंशियल
इशू विद दिस इनकोडर डिकोडर अप्रोच जज दैट
नरल नेटवर्क नीड्स टू बी एबल टू कंप्रेस
ऑल द नेसेसरी इंफॉर्मेशन ऑफ सोर्स सेंटेंस
इनटू अ फिक्स्ड लेंथ वेक्टर दिस मे मेक इट
डिफिकल्ट फॉर न्यूरल नेटवर्क्स टू कोप विद
लॉन्ग सीक्वेंसेस स्पेशली दोज आर लंगर देन
सेंटेंसेस इन अ ट्रेनिंग कॉर्पस ठीक है तो
अब मैं आपको सिंपलीफाइड टर्म्स में एक बार
समझाने की कोशिश करता हूं कि अटेंशन
मैकेनिज्म काम कैसे करता है तो सबसे पहले
मैं आपको अटेंशन मैकेनिज्म के पीछे का जो
कोर आईडिया व समझाऊ और फिर मैं आपको एक
छोटा सा स्टेप बाय स्टेप इंट्रोडक्शन
दूंगा कि अटेंशन मैकेनिज्म काम कैसे करता
है तो जो अटेंशन बेस्ड एनकोड डिकोडर
मॉड्यूल होता है होता वह भी इनकोडर डिकोडर
ही है बस एक बहुत बड़ा डिफरेंस होता है जो
इनकोडर ब्लॉक होता है ना वह तो सेम होता
है जैसा आपको नॉर्मल ट्रेडिशनल एन कोडर
डिकोडर आर्किटेक्चर में मिलेगा जो डिफरेंस
आता है ना वो आता है डिकोडर ब्लॉक में
कैसा आता है डिफरेंस मैं आपको समझाता हूं
जो ट्रेडिशनल इनकोडर डिकोडर आर्किटेक्चर
है जैसा कि मैंने बताया वहां पर
जो स्टेट वेक्टर है जो कॉन्टेक्स्ट वेक्टर
है वह फाइनल स्टेप के बाद निकल के आता है
और फिर जाकर के डिकोडर को मिलता है ठीक है
और फिर डिकोडर स्टेप बाय स्टेप स्टेप बाय
स्टेप ट्रांसलेशन करता है बट इन अटेंशन
बेस्ड एनकोड डिकोडर क्या होता है कि कोई
एक सिंगल कॉन्टेक्स्ट वेक्टर नहीं होता है
एट एनी स्टेप ऑफ द डिकोडर डिकोडर के पास
एन कोडर के सारे इंटरनल स्टेट्स का
इंफॉर्मेशन होता है राइट यह अंदर में एक
एलएसटीएम है तो एलएसटीएम के जो इंटरनल
स्टेट्स होते हैं सीटी और एचटी वो हर टाइम
स्टेप के बाद आपको दिखाई देंगे तो यहां पर
क्या फंडा है कि ये इंटरनल स्टेट्स हर
टाइम अवेलेबल
है लाइक दिस जैसे आप सेकंड वर्ड प्रिडिक्ट
करना ट्रांसलेट करने जा रहे हो सेकंड वर्ड
प्रिंट करने जा रहे हो तो यह सेकंड वर्ड
प्रिंट करने के लिए इफ आई वांट मैं एन
कोडर का कोई भी इंटरनल स्टेट को देख सकता
हूं यह इंफॉर्मेशन मेरे पास है जबकि
ट्रेडिशनल वाले में लेट्स से मैं सेकंड
वर्ड को प्रिंट करने जा रहा हूं या
प्रिडिक्ट करने जा रहा हूं तो मेरे पास
सिर्फ ये आखिरी वाला स्टेट है व्हिच इज द
कंप्रेस्ड इंफॉर्मेशन एकदम एंड वाला यहां
पर ऐसा नहीं है यहां पर मेरे पास हर
इंटरमीडिएट स्टेट का इंफॉर्मेशन
है इस वर्ड को प्रोसेस करने के बाद इनकोडर
ने क्या सोचा ये इंफॉर्मेशन भी है इन
दोनों वर्ड्स को प्रोसेस करने के बाद
इनकोडर ने क्या सोचा ये इंफॉर्मेशन भी है
इन तीनों को प्रोसेस करने के बाद क्या
सोचा वो भी है और पूरे को प्रोसेस करने के
बाद क्या सोचा वो भी है सो इससे क्या
फायदा होता है कि कोई भी एक पर्टिकुलर
वर्ड को प्रिंट करने के लिए मेरे पास पूरे
के पूरे सेंटेंस का कॉन्टेक्स्ट है अब बस
एक प्रॉब्लम है और वो प्रॉब्लम यह है कि
हमारे पास किसी भी एक वर्ड को प्रिंट करने
के लिए बहुत सारे हिडन स्टेट्स का
इंफॉर्मेशन
है बट हमें पता कैसे चलेगा कि इनमें से
कौन सा हिडन स्टेट हमारे लिए यूजफुल है
मतलब इस वर्ड को प्रिंट करने में यूजफुल
है एंड दिस इज वेयर अटेंशन कम्स इन टू द
पिक्चर सो अटेंशन इज बेसिकली अ मैकेनिज्म
जो डायनामिक फॉर एनी डिकोडर स्टेप गिवन
सारे इनकोडर हिडन स्टेप में से उस स्टेप
को खोज के निकाल पाता है जो करंट वर्ड को
प्रिंट करने में एक्चुअली हेल्पफुल है ठीक
है बेसिकली करंट वर्ड जो ट्रांसलेट हो रहा
है उसके लिए इनपुट सेंटेंस में कौन सा
वर्ड यूजफुल है यह फिगर आउट करने का तरीका
है अटेंशन मैकेनिज्म ठीक है सो यू कैन सी
यहां पर यह जो वाइट कलर का ब्लॉक है यह
बेसिकली क्या कर रहा है कि इसके पास यह
सारे हिडन स्टेट्स का इंफॉर्मेशन है बट
इसका काम क्या है फॉर द
करंट टाइम स्टेप ऑफ डिकोडर इट विल ट्राई
टू फिगर आउट कि इनमें से कौन सा हिड स्टेट
एक्चुअली यूजफुल होगा ठीक है तो होता क्या
है कि ये एक न्यूरल नेटवर्क ही होता है जो
इस पूरे के पूरे आर्किटेक्चर के साथ ट्रेन
होता है और उसका काम होता है टू फाइंड आउट
द बेस्ट पॉसिबल हिडन स्टेट फॉर द करंट
टाइम स्टेप ऑफ द डिकोडर अब अगर यह बात
आपको थोड़ी और डिटेल में समझनी है तो यह
डायग्राम ज्यादा अच्छा रहेगा यहां पर
मैंने उसी एनकोड डिकोडर आर्किटेक्चर को
थोड़ा एक्सपेंड करके दिखाया है यह
डायग्राम मुझे
सो यहां पर आप यह वाला पार्ट अगर पकड़ के
चलो तो दिस इज योर इनकोडर
ब्लॉक और अगर आप इसको पकड़ के
चलो तो दिस इज योर डिकोडर
ब्लॉक सो यू कैन सी फर्स्ट ऑफ ऑल कि यहां
से आप एक एक करके अपने वर्ड्स इनकोडर में
डाल रहे हो ठीक है और हर टाइम स्टेप के
बाद आपके पास एक इनकोडर हिडन स्टेट है
बेसिकली सीटी और एचटी वेक्टर है
यह आपका फाइनल सीटी और एचटी वेक्टर है अब
आप क्या कर रहे हो सारे के सारे जो अपने
हिडन स्टेट्स है यह वाला यह वाला यह वाला
उसको आप यहां पर स्टोर कर ले रहे हो ठीक
है अब यहां से डिकोडर का काम स्टार्ट हुआ
तो जैसे ही वह फर्स्ट वर्ड को प्रिंट करने
जाएगा उसके पहले वह सारे के सारे हिडन
स्टेट्स को उठाएगा और अटेंशन लेयर में डाल
देगा
अब अटेंशन लेयर का काम क्या है उसका काम
है यह फिगर आउट करना कि इस वर्ड को प्रिंट
करने के लिए इनमें से कौन सा हिडन स्टेट
सबसे यूजफुल
होगा जैसे ही उसको यह इंफॉर्मेशन मिलेगा
उसको एक कॉन्टेक्स्ट वेक्टर में कन्वर्ट
करके हम इस नेटवर्क में डाल देंगे और
हमारा आउटपुट प्रिंट हो जाएगा फिर हम आगे
बढ़ेंगे हमें सेकंड वर्ड को प्रिंट कर है
सेकंड वर्ड को प्रिंट करने के लिए भी हम
क्या कर रहे हैं हम अपने सारे हिडन
स्टेट्स को ले रहे हैं अटेंशन लेयर में
डाल रहे हैं एंड वी आर ट्राइट फिगर आउट कि
इनमें से कौन सा हिडन स्टेट सबसे यूजफुल
होगा इस वर्ड को प्रिंट करने के लिए ठीक
है अब ओबवियसली इस अटेंशन लेयर के अंदर
क्या मैथमेटिकल कैलकुलेशंस चल रही है वो
अभी इस वीडियो के अ टॉपिक के बाहर की बात
है हम आगे इसके बारे में डिटेल डिस्कशन
करेंगे बट फिलहाल आपको बस यह समझना है कि
यहां पर अलग क्या हो रहा है कि जो नॉर्मल
वाला कन्वेंशनल एन कोडर डिकोडर
आर्किटेक्चर था वहां पर आपके पास सिर्फ एक
ही कॉन्टेक्स्ट वेक्टर
था फॉर एवरी स्टेप ऑफ द डी
कोडर बट अगर आप अटेंशन बेस्ड इनकोडर
डिकोडर की बात करो तो यू वुड फाइंड कि
यहां पर हर टाइम स्टेप पे अपना अलग
कॉन्टेक्स्ट वेक्टर कैलकुलेट हो रहा है
विद द हेल्प ऑफ अटेंशन लेयर एंड दैट इज वई
कल को अगर मुझे कुछ ऐसा सेंटेंस भी मिल
जाता है सैडली मिस्टेकन ही रिलाइज तो जैसे
ही वह पहला वर्ड ट्रांसलेट करने जाएगा तो
वह एक्चुअली बहुत शुरू वाले लेयर्स के ऊपर
फोकस करेगा इस वाले हिडन स्टेट पर फोकस
करेगा जो पहला कांटेक्ट वेक्टर होगा वो
ऑटोमेटिक इस वाले हिडन स्टेट को ज्यादा
स्कोर देगा
और इस कॉन्टेक्स्ट वेक्टर में इसका
रिप्रेजेंटेशन ज्यादा होगा तो ऑटोमेटिक हम
कभी भी ना शुरू का पार्ट मिस करेंगे
सेंटेंस का ना लास्ट का पार्ट मिस करेंगे
ना बीच का पार्ट मिस करेंगे और यही मेन
आपका जो बेनिफिट है वह अटेंशन मैकेनिज्म
लेक आता है पिक्चर में ठीक है तो आई नो
मैंने बहुत डिटेल में मैथ्स बेस्ड
डिस्क्रिप्शन आपको नहीं दिया बट आई जस्ट
वांटेड टू गिव यू अ बेसिक आईडिया इसके ऊपर
हम लोग एक डेडिकेटेड वीडियो करेंगे जहां
पर हम इसको अच्छे से समझेंगे अब जो अटेंशन
मैकेनिज्म था उसके आने से फायदा तो बहुत
हुआ बट अटेंशन मैकेनिज्म का एक नुकसान भी
था और वो था कि यू कैन सी दिस आर्किटेक्चर
एंड इजली अंडरस्टैंड कि बिकॉज हम हर
डिकोडर टाइम स्टेप पे सेपरेट कांटेक्ट
वेक्टर कैलकुलेट कर रहे हैं फॉर ईच टाइम
स्टेप जो कंप्यूटेशनल
या फिर आप बोल सकते हो ट्रेनिंग टाइम
था वह इंक्रीज हो जा रहा था ठीक है इस
पॉइंट को थोड़ा अच्छे से हम लोग समझते हैं
सो यहां पर मैंने आपको बोला कि आप क्या कर
रहे हो आप बेसिकली आपके पास हर हिडन स्टेट
अवेलेबल है आप अपने करंट वर्ड के लिए जो
सबसे इंपॉर्टेंट हिडन स्टेट है उसको
निकालना चाह रहे हो और यह निकालने का
तरीका क्या होता है कि आप अपने आउटपुट
वाले वर्ड का अपने सारे इन वाले वर्ड्स के
साथ एक तरीके से बोला जाए तो सिमिलरिटी
कैलकुलेट करते हो और फिर जो सिमिलरिटी
सबसे ज्यादा निकल के आती है आप उसी वर्ड
को यूज करते हो टू कैलकुलेट दिस कांटेक्ट
वेक्टर हाई लेवल ओवरव्यू है बट अगर आप
इसमें समझने की कोशिश करो तो फॉर ईच वर्ड
दैट इज प्रेजेंट इन योर आउटपुट यू हैव टू
कैलकुलेट सिमिलरिटी स्कोर्स फॉर विथ ऑल द
वर्ड्स दैट आर प्रेजेंट इन योर इनपुट सो
लेट्स से अगर आपके इनपुट में एन वर्ड्स
है और आपके आउटपुट में एम वर्ड्स है
क्योंकि जरूरी नहीं है कि दोनों सेम हो तो
बेसिकली यू हैव टू परफॉर्म ए क्रॉस ए
कंप्यूटेशंस सो यह क्या हो रहा है यह
क्वाड्रेटिक
कॉम्प्लेक्शन ज वेरी लॉन्ग तो फिर यू हैव
टू डू इट मल्टीपल टाइम्स तो दिस इज द
बिगेस्ट प्रॉब्लम विद अटेंशन मैकेनिज्म की
ल कॉप्लेक्स क्वाड्रेटिक हो जा रही है और
ट्रेनिंग टाइम स्लो हो जा रहा है तो
रिसर्चस
ने जब रिसर्च किया और समझने की कोशिश की
इस प्रॉब्लम को तो बहुत अलग अलग टाइप के
और अटेंशन मैकेनिज्म
अलग अलग टाइप के अटेंशन मैकेनिज्म पटेल
बट एवेंचुरिन रिलाइज की मेन प्रॉब्लम
अटेंशन मैकेनिज्म में नहीं है मेन
प्रॉब्लम यहां पर है कि
आप एलएसटीएम को यूज कर रहे
हो जो कि
एसेंशियली सीक्वेंशियल
ऑर्डर में काम करते हैं मतलब एक बार में
एक ही वर्ड को रिसीव कर सकते हैं उसके बाद
दूसरे वर्ड को फिर तीसरे वर्ड को यह जो
पूरा काम हो रहा है यह वन स्टेप एट टाइम
ही हो सकता है एंड दिस वास द मेन प्रॉब्लम
सो रिसर्चस देन स्टार्टेड फिगरिंग आउट कि
क्या कोई तरीका है कि हम यह जो
सीक्वेंशियल नेचर है एन कोडर डिकोडर
आर्किटेक्चर का इसको हटा करके किसी तरीके
से पैरेलल प्रोसेसिंग को पिक्चर में ला
पाए बिकॉज अगर पैरेलल प्रोसेसिंग पिक्चर
में आ जाएगी तो फिर ट्रेनिंग टाइम बहुत
ड्रास्ट्रिंग एंड दिस इज द पॉइंट जहां पर
हमारी हिस्ट्री में स्टेप स्टेज थ्री में
ट्रांसफॉर्मर्स आते हैं जिन्होंने आके
एनएलपी का पूरा लैंडस्केप ही बदल दिया तो
2017
में ग ब्रेन की तरफ से एक ग्राउंड बेकिंग
रिसर्च पेपर आया जिसका नाम था अटेंशन इज
ऑल यू नीड यह पेपर इतना पॉपुलर हुआ कि
इसके काउंटलेस
कितने य वीडियोस बने होंगे इसके ऊपर और आज
की डेट में प्रोबेबली हर डीप लर्निंग
कोर्स में एक डेडिकेटेड लेक्चर होगा आई एम
प्रिटी शोर दिस वाज द फर्स्ट पेपर जहां पर
ट्रांसफॉर्मर आर्किटेक्चर इंट्रोड्यूस
किया गया सो ट्रांसफॉर्मर आर्किटेक्चर जो
था ना उसमें जो सबसे बड़ा चेंज था वह यह
था कि ट्रांसफॉर्मर आर्किटेक्चर में यह जो
रिसर्चर है इन लोगों ने एलएसटीएम को
पूरी तरह से डिच कर दिया हटा दिया
उन्होंने बोला कि हमारे आर्किटेक्चर को
एलएसटीएम या फॉर दैट मैटर किसी भी टाइप के
आरएनएन सेल की कोई जरूरत नहीं है
अटेंशन इज ऑल यू नीड अटेंशन से ही आपका
काम चल जाएगा इन फैक्ट व्ट दे डिड दे
इंप्लीमेंटेड अ न्यू काइंड ऑफ अटेंशन
जिसको सेल्फ अटेंशन बोला जाता है अभी क्या
होता है यह सब हम लोग आगे के वीडियोस में
डिस्कस करेंगे बट मैं आपको एक रफ आईडिया
दे देता हूं अभी भी जो आर्किटेक्चर है
उसमें एनकोड डिकोडर होता है यू कैन सी
इनकोडर ब्लॉक भी है डी कोडर ब्लॉक भी है
बट इनके अंदर अब एलएसटीएम यूज नहीं होते
यहां भी एलएसटीएम यूज नहीं हो रहा और यहां
भी एलएसटीएम यूज नहीं हो रहा इन फैक्ट एक
चेंज क्या है कि यहां पर एनकोड मॉड्यूल के
अंदर भी अटेंशन यूज हो रहा है और डिकोडर
के अंदर भी अटेंशन यूज हो रहा है एंड
अलोंग विद दैट थोड़ा बहुत फुली कनेक्टेड
डेंस लेयर यूज हो रहे अब जो बेस्ट पार्ट
है ट्रांसफॉर्मर आर्किटेक्चर का वह यह है
कि पुराने एनकोड डिकोडर मॉड्यूल जो भी
आपने पढ़े विथ और विदाउट अटेंशन उनमें
सबसे बड़ा बॉटल नेक क्या था कि आप एक बार
में एक ही वर्ड रीड कर सकते थे राइट
ट्रांसफॉर्मर्स की सबसे बड़ी खासियत यह है
कि वह एक साथ इनपुट में दिए गए सारे
वर्ड्स को साइमल सली देख सकते हैं एंड दिस
पैरेलल प्रोसेसिंग इज द मेन रीजन जिसकी
वजह से ट्रांसफार्मर का जो ट्रेनिंग है वो
बहुत फास्ट होता है इनफैक्ट अगर मैं आपको
दिखाऊं तो दिस इज द एक्चुअल आर्किटेक्चर
व्हिच दिस पेपर इंट्रोड्यूस्ड यहां पर यू
कैन सी यह जो पार्ट है दिस इज योर इनकोडर
पार्ट और ये जो पार्ट है दिस इज योर
डिकोडर पार्ट ठीक है सो बहुत डिटेल में भी
नहीं जा सकते बिकॉज इतना शॉर्ट में कवर
करने वाली चीज नहीं है बट एक चीज आप नोटिस
करोगे कि य य पर कुछ बहुत
कॉम्प्लेक्शन लेयर यूज हुआ है
नॉर्मलाइजेशन लेयर्स यूज हुए हैं उसके
अलावा डेंस लेयर्स यूज हुए हैं और
एंबेडिंग्स यूज हुई है तो जो चीजें हम
ऑलरेडी समझते हैं मोस्टली वैसी चीजों को
ही मिला कर के सम हाउ इन रिसर्चस ने एक
ऐसा ग्राउंड ब्रेकिंग आर्किटेक्चर क्रिएट
किया जिसने एनएलपी का फ्यूचर ही बदल दिया
द ट्रांसफॉर्मर मॉडल वाज इजी टू पैरेललाइज
एंड इट वास पॉसिबल टू ट्रेन इट इन अ
फ्रैक्शन ऑफ टाइम एंड कॉस्ट च प्रीवियस
इनकोडर डिकोडर मॉड्यूस नीडेड मतलब
ट्रेनिंग टाइम भी रिड्यूस हुआ और ट्रेनिंग
के लिए जो हार्डवेयर चाहिए होता है च इज
बेसिकली जीपीयू उसका भी रिक्वायरमेंट कम
हो गया सो ट्रांसफॉर्मर वाज दैट पॉइंट
जिसके बाद मतलब यह ग्राफ ऐसे चल रहा
था ऐसे बदल गया ठीक है तो अब हम लोग
नेक्स्ट स्टेज प मूव करते हैं कि कैसे
ट्रांसफॉर्मर्स के आने के बाद एनएलपी का
जो पूरा हिस्ट्री है वह बहुत तेजी से
इवॉल्व होने लगा तो ट्रांसफॉर्मर्स खुद
में रिवोल्यूशन थे बहुत ही तगड़ा
आर्किटेक्चर था और जभी भी आप
ट्रांसफॉर्मर्स को सही से ट्रेन करते हो
आपको ऑलमोस्ट हमेशा स्टेट ऑफ द आर्ट
रिजल्ट्स मिलते हैं द ओनली प्रॉब्लम इज कि
ट्रांसफॉर्मर्स को स्क्र से ट्रेन करना
टेढ़ी खीर है वई आई गिव यू सम रीजन पहला
रीजन है इट
रिक्वायर्स
हार्डवेयर मतलब यू नीड गुड क्वालिटी
जीपीयू तो थोड़ा कॉस्ट इवॉल्वड है
ट्रांसफॉर्मर्स को स्क्रैच से ग्राउंड अप
ट्रेन करने के लिए दूसरा इंपोर्टेंट
फैक्टर है
टाइम भले ही ट्रांसफॉर्मर्स अटेंशन बेस्ड
एनकोड डिकोडर्स या फिर नॉर्मल एनकोड
डिकोडर से फास्ट ट्रेन होते हैं बट स्टिल
सिग्निफिकेंट टाइम लगता है आल्सो इट
डिपेंड्स ऑन योर डेटा सेट बट टाइम लगता है
बट जो सबसे बड़ा प्रॉब्लम था
ट्रांसफॉर्मर्स को स्क्रैच से ट्रेन करने
में वह है
डेटा यू नीड अ लॉट ऑफ डटा मतलब लेट्स से
आप एक सेंटीमेंट एनालिसिस टास्क को सॉल्व
करना चाहते हो यूजिंग अ ट्रांसफॉर्मर तो
यू नीड अ गुड अमाउंट ऑफ डाटा लाख डेढ़ लाख
10 लाख रोज ऑफ डेटा आपको चाहिए नाउ द
प्रॉब्लम इज कि हम में से हर किसी के पास
इतना डाटा नहीं है वी आर नॉट ग वी आर नॉट
फ जिनके पास इनसेन अमाउंट ऑफ डटा है कई
बार हमारे पास बहुत कम डाटा रहता है मान
लो सिर्फ 100 रोज है या फिर सिर्फ 1000
रोज है अब इतने कम डाटा पे स्क्रैच से
ट्रांसफार्मर को ट्रेन करने पर आपको उतने
ब बढ़िया रिजल्ट्स नहीं मिलते सो यह एक
बहुत बड़ा रिस्ट्रिक्टिंग फैक्टर बन गया
इतनी पावरफुल टेक्नोलॉजी जो आई
ट्रांसफॉर्मर हर कोई इसको यूज नहीं कर पा
रहा था बिकॉज देर वर रिस्ट्रिक्शंस सो इसी
प्रॉब्लम को सॉल्व करने के लिए आया हमारा
अगला स्टेज इन आवर हिस्ट्री एंड दैट इज
ट्रांसफर
लर्निंग और वही हम लोग नेक्स्ट डिस्कस
करेंगे तो 2018 में क्या हुआ कि एक और
बहुत फेमस रिसर्च पेपर आया फ्रॉम जेरेमी
हॉवर्ड एंड सेबिन लडर यह दोनों बहुत ही
फेमस रिसर्चस हैं इनफैक्ट जेरेमी हॉवर्ड
का बहुत फेमस य चैनल भी है जहां पर ही
टीचेसैक्स
क्लासिफिकेशन इसको शॉर्ट में एक्चुअली
यूएलएम ट बोला जाता है ठीक है सो यह पेपर
वास अगेन अ लैंडमार्क पेपर बिकॉज इस पेपर
में इन दोनों ने यह प्रपोज किया कि
ट्रांसफर लर्निंग का
कांसेप्ट एनएलपी के डोमेन में यूज किया जा
सकता है इन्होंने पहले तो यह बताया कि
अनफॉर्चूनेटली अभी तक ट्रांसफर लर्निंग एक
ऐसा कांसेप्ट था जो सिर्फ विजन के डोमेन
में काम करता था कंप्यूट विजन के डोमेन
में एंड अनफॉर्चूनेटली एनएलपी टास्क में
ट्रांसफर लर्निंग अप्लाई नहीं हो पाता बट
इस पेपर में दे गेव अ फ्रेमवर्क बाय द नेम
ऑफ यूएलएम फिट जहां पर उन्होंने यह बताया
कि ट्रांसफर लर्निंग कैन आल्सो बी अप्लाइड
टू एनएलपी
टास्क्स तो एक बार समझते हैं इस पूरे चीज
को एक बार अच्छे से समझने की कोशिश करते
हैं तो हम लोग दो स्टेप्स में समझेंगे
पहला तो एक बार वी विल टेक अ क्विक रिवीजन
की ट्रांसफर लर्निंग क्या होता है फिर मैं
आपको यह समझाऊ कि क्यों एनएलपी के डोमेन
में ट्रांसफर लर्निंग फिट नहीं बैठता था
ठीक है तो लेट्स फर्स्ट टॉक अबाउट व्हाट
इज ट्रांसफर लर्निंग लद हमने इस प्लेलिस्ट
में पहले पढ़ा है बट आई विल जस्ट गिव यू अ
क्विक
रिवीजन सो ट्रांसफर लर्निंग इज अ टेक्निक
इन चच नॉलेज लर्न फ्रॉम अ टास्क इज रीयूज
इन ऑर्डर टू बूस्ट परफॉर्मेंस ऑन अ
रिलेटेड टास्क फॉर एग्जांपल अगर आप
क्लासिफिकेशन की बात करो तो नॉलेज गेन
वाइल लर्निंग टू रिकॉग्नाइज कार्स कुड बी
अप्लाइड वन यू आर ट्राइट रिकॉग्नाइज
ट्रक्स सिंपल सी बात है हम भी करते हैं
ह्यूमन बीइंग्स भी करते हैं अब आपने अगर
लेट्स से साइकिल चलाना सीखा तो आपके लिए
बाइक चलाना सीखना आसान होता है क्यों
बिकॉज आपने काफी नॉलेज ऑलरेडी गेन कर लिया
एक सिमिलर टास्क में उसको आप एक्चुअली
ट्रांसफर कर सकते हो इनटू अ रिलेटेड टास्क
दैट इज वई वी कॉल इट ट्रांसफर लर्निंग सो
ट्रांसफर लर्निंग
में दो स्टेप्स होते हैं प्रेसा इजली और
वह दोनों यहां पर आपको दिख जाएंगे द
फर्स्ट स्टेप इ नोन एस प्री ट्रेनिंग प्री
ट्रेनिंग में आप क्या करते हो कि आप अपने
मॉडल को लेते
हो और एक बहुत बड़े यूनिवर्सल डेटा सेट के
ऊपर ट्रेन करते हो एक ऐसा डेटा सेट जिसमें
बहुत सारे सैंपल्स एंड द गोल इ टू लर्न ऑल
द
फीचर्स ऑफ द डेटा
सेट ठीक है वंस यू आर डन विथ प्री
ट्रेनिंग देन यू मूव टू स्टेप नंबर टू
जिसको हम फाइन ट्यूनिंग भी बोलते
हैं सो फाइन ट्यूनिंग में आप क्या करते हो
कि आप इस सेम ट्रेंड मॉडल को लेते हो और
उसके जो शुरू वाले वेट्स है उसको आप रिटेन
कर लेते हो बट जो लेटर स्टेज वाले लेटर
लेयर वाले जो वेट्स है उनको आप ह हटा के
अपने नए वेट्स लगा देते हो और फिर आप अपने
काम के डेटा सेट के ऊपर उसको ट्रेन करते
हो ठीक है और अब क्या होता है
कि यह आपके काम के हिसाब से फाइन ट्यून हो
जाता है और अच्छे प्रेडिक्शन देता है इस
पूरे प्रोसेस का एक बहुत अच्छा एग्जांपल
है अ इमेज नेट ये शायद आपने पढ़ा भी होगा
सो इमेज नेट इज बेसिकली अ डेटा सेट व्हिच
कंटेंस लाइक मिलियंस ऑफ
इमेजेस ऑफ मल्टीपल थिंग्स सो आप क्या कर
सकते हो इसके ऊपर आप कोई एक सीएनएन
आर्किटेक्चर को उठा सकते हो लेट्स से
रेनेट या फिर इंसेप्शन v2 या कोई भी और और
आप इस डाटा के ऊपर ट्रेन कर सकते हो और
प्री ट्रेनिंग स्टेज में क्या होगा कि
आपके आपका यह जो मॉडल है यह इस डेटा से
कुछ जनरल फीचर्स लर्न कर जाएगा जैसे एजेस
कैसे होते हैं या बेसिक शेप्स कैसे होते
हैं जिनको मिलाकर के ही पूरी दुनिया की
चीजें बनी है और अब आप क्या कर सकते हो कि
आप सेकंड स्टेज में इस मॉडल को उठाकर उसको
फाइन ट्यून कर सकते हो अपने काम के हिसाब
से लेटस से आपको एक कैट वर्सेस डॉग
क्लासिफाइड और आपके पास सिर्फ 100 इमेजेस
है तो आप क्या करोगे इस इमेज नेट ट्रेंड
इस मॉडल को उठाओगे और उसको फाइन ट्यून कर
दोगे चच मींस उसके लेटर स्टेज
वाले लेटर लेयर वाले वेट्स को आप ट्रेन
करोगे अपने डेटा सेट प चच इज लाइक 100
इमेजेस ऑफ कैट्स एंड डॉग्स तो सिंस वो
पहले से सीख चुका है एजेस और शेप्स वगैरह
डिटेक्ट करना आपके डेटा सेट से वो यह भी
सीख जाएगा कि कैट कैसा दिखता है और डॉग
कैसा दिखता है और फिर वोह आराम से
प्रेडिक्शन कर पाएगा नए डाटा के ऊपर तो
दिस इज द बेसिक कांसेप्ट बिहाइंड ट्रांसफर
लर्निंग अगर आपको और डिटेल में समझना है
कि ट्रांसफर लर्निंग क्या होता है कैसे
काम करता है इस प्लेलिस्ट में आपको एक
डेडिकेटेड वीडियो मिल जाएगा ट्रांसफर
लर्निंग के ऊपर आप वो देख सकते हो बट
फिलहाल मैंने आपको एक क्विक ओवरव्यू दे
दिया ट्रांसफर लर्निंग का अब यह डिस्कस
करते हैं कि ऐसा क्यों बोला जाता है कि
एनएलपी के डोमेन में ट्रांसफर लर्निंग
उतना यूजफुल नहीं था यह पॉइंट हम लोग
डिस्कस करते हैं तो 2018 तक ट्रांसफर
लर्निंग एनएलपी की डोमेन में अप्लाई क्यों
नहीं हो पाया इसके दो बड़े रीजन थे पहला
रीजन था
टास्क
स्पेसिफिसिटी इसका मतलब यह हुआ कि ऐसा
परसेप्शन था
कि टास्क होते हैं जैसे कि सेंटीमेंट
एनालिसिस हुआ या फिर नेम एंटिटी
रिकॉग्निशन हुआ या पार्ट्स ऑफ स्पीच
टैगिंग हुआ या फिर मशीन ट्रांसलेशन हुआ या
फॉर दैट मैटर क्वेश्चन आंसरिंग या टेक्स्ट
समरा इजेशन हुआ यह सारे टास्क एक दूसरे से
बहुत अल अलग ठीक है और हर टास्क का अपना
अलग रिक्वायरमेंट है और लोगों को ऐसा लगता
था कि कोई एक सिंगल मॉडल किसी एक टास्क को
सीख करके सारे टास्क कर पाए यह पॉसिबल
नहीं है ठीक है मतलब यह है कि आपको एक ऐसा
मॉडल उठाना है और उसको एक ऐसे टास्क पर
ट्रेन करना है जिससे वो मॉडल लैंग्वेज के
बेसिक्स सीख जाए
और एक बार जब वो लैंग्वेज के बेसिक सीख
जाएगा तो फिर ओबवियसली बाकी टास्क पर भी
अच्छा परफॉर्म करेगा तो लोगों ने कुछ ऐसे
टास्क उठाए जैसे कि बीच में कुछ रिसर्चस
ने मशीन
ट्रांसलेशन को यूज किया एस अ टास्क जहां
पर आप मशीन लर्निंग मशीन ट्रांसलेशन पर
सीखो और फिर उसको कहीं भी अप्लाई कर पाओगे
मॉडल को बट फिर यहां पर सेकंड प्रॉब्लम आ
गई सेकंड प्रॉब्लम वाज लैक ऑफ
डटा
सो मशीन ट्रांसलेशन के लिए आपको चाहिए खूब
सारा डाटा सो बेसिकली आपको लेबल डाटा
चाहिए मतलब आपके पास एक कॉलम में मान लो
अगर आप इंग्लिश टू हिंदी ट्रांसलेशन
करवाना चाहते हो तो आपको एक कॉलम में खूब
सारे इंग्लिश सेंटेंसेस चाहिए और दूसरे
में खूब सारे हिंदी सेंटेंसेस चाहिए बट
अनफॉर्चूनेटली इतना डाटा अवेलेबल नहीं था
टू ट्रेन अ मॉडल ऑन मशीन ट्रांसलेशन टास्क
सो बेसिकली बिकॉज ऑफ दस टू रीजन कभी भी
एनएलपी के डोमेन में ट्रांसफर
लर्निंग अपने आप को स्टब्स नहीं कर पाया
बट यह सब बदल गया 2018 में जब यूएलएम
फिट वाला रिसर्च पेपर आया सो यूएलएम फिट
वाले रिसर्च पेपर में रिसर्चर ने क्या अलग
किया उन्होंने प्री ट्रेनिंग के लिए मशीन
ट्रांसलेशन को यूज नहीं
किया दे डिड नॉट यूज मशीन ट्रांसलेशन
इंस्टेड दे
यूज अ डिफरेंट टास्क बाय द नेम ऑफ
लैंग्वेज
मॉडलिंग आई एम प्रिटी श्यर आपने लैंग्वेज
मॉडलिंग के बारे में पहले कभी ना कभी सुना
होगा अगर आपने नहीं सुना है तो मैं आपको
समझा देता हूं लैंग्वेज मॉडलिंग क्या होता
है सो लैंग्वेज मॉडलिंग एक ऐसा एनएलपी
टास्क है जहां पर आप एक एनएलपी या डीप
लर्निंग मॉडल को
नेक्स्ट वर्ड प्रेडिक्शन करना सिखाते
हो जैसे कि आई लिव इन
इंडिया एंड द
कैपिटल ऑफ इंडिया इज फिल इन द ब्लैंक तो
जो ट्रेंड मॉडल होगा व यहां पर प्रिडिक्ट
कर पाएगा कि इट शुड बी न्यू
दिल्ली तो लैंग्वेज मॉडलिंग एक ऐसा टास्क
है लैंग्वेज मॉडलिंग एक ऐसा टास्क है जहां
पर आपको एक मशीन लर्निंग डीप लर्निंग मॉडल
को अगला वर्ड प्रिडिक्ट करना सिखाना होता
है अब मैं आपको बताता हूं कि लैंग्वेज
मॉडलिंग एस प्री
ट्रेनिंग क्यों इतना सक्सेसफुल हो
पाया इसके पीछे दो रीजन
है और वो दोनों हम लोग एकएक करके डिस्कस
करते हैं तो लैंग्वेज मॉडलिंग एस अ प्री
ट्रेनिंग टास्क के दो फायदे थे मैं आपको
दोनों बताता हूं पहला जो फायदा है वह है
रिच फीचर
लर्निंग इसका यह मतलब है कि भले यह टास्क
बहुत सिंपल लगता है कि आपको बस नेक्स्ट
वर्ड प्रिडिक्ट करना है बट इस छोटे से
टास्क को सीखने में एक मॉडल बहुत कुछ
सीखता है मतलब आप नॉट ओनली
ग्रामेटिकल टेक्स सीखते हो ताकि सेंटेंस
सही से प्रिंट हो ग्रामेटिकली आप सेंटेंस
के सेमांटिक्स भी सीखते हो उसके पीछे का
मीनिंग भी सीखते हो उसके अलावा कई बार जो
अच्छे मॉडल्स होते हैं वह कॉमन सेंस भी
डिराइवर कर लेते हैं जैसे कि मैं आपको एक
एग्जांपल देता हूं मान लो एक सेंटेंस है
कुछ भी सेंटेंस ले सकते हैं जैसे कि द
होटेल
वास
एक्सेप्शनली कुछ भी ले सकते हो लेट से
क्लीन यट द
सर्विस
वाज फिल इन द ब्लैंक अब अगर एक मॉडल सही
से ट्रेड है तो उसको यह वर्ड प्रिडिक्ट
करना है अब वो कई तरह की चीजें सीख चुका
है लैंग्वेज में एंड ट इ वो यह सीख चुका
है कि यट अगर लगा है और पहले तारीफ की गई
है तो फिर यहां पर पक्का कुछ नेगेटिव
सेंटीमेंट वाला वर्ड ही आना चाहिए जैसे कि
बैड या
पथिक तो यह फायदा है लैंग्वेज मॉडलिंग का
कि जब आप नेक्स्ट वर्ड प्रिडिक्ट करना
सिखाते हो एक मॉडल को बहुत बड़े डेटा सेट
के ऊपर तो वह लैंग्वेज का बहुत बेसिक
अंडरस्टैंडिंग ले लेता है और फिर एक एक
बार आपने वो बेसिक अंडरस्टैंडिंग ले लिया
तो दैट नॉलेज इ एक्चुअली ट्रांसफरेबल टू अ
लॉट ऑफ टास्क मतलब उसको यूज करके आप
टेक्स्ट क्लासिफिकेशन भी कर सकते हो आप
उसको यूज करके क्वेश्चन आंसरिंग सिस्टम भी
बना सकते हो आप उसको यूज करके टेक्स्ट
समरा इजेशन भी कर सकते हो एनई आर भी कर
सकते हो पार्ट्स ऑफ स्पीच टैगिंग भी कर
सकते हो स आई होप आपको पहला पॉइंट समझ में
आया नाउ लेट्स टॉक अबाउट द सेकंड बेनिफिट
ऑफ यूजिंग लैंग्वेज मॉडलिंग द सेकंड रीजन
इज और द सेकंड बेनिफिट इज ह्यूज
अवेलेबिलिटी ऑफ
डेटा अभी तक प्रॉब्लम क्या थी अगर आप मशीन
ट्रांसलेशन वाला टास्क कर रहे थे तो आपको
लेबल्ड डाटा चाहिए था इसका मतलब आपको एक
कॉलम में इंग्लिश के सेंटेंसेस चाहिए थे
लेकिन दूसरे कॉलम में आपको हिंदी के सही
ट्रांसलेटेड सेंटेंसेस चाहिए थे तो इन अ
वे यह जो टास्क था ये सुपरवाइज था इसमें
आपको लेबल्ड डाटा चाहिए
था बट अगर आप लैंग्वेज मॉडलिंग यूज कर रहे
हो तो आप सोच के देखो आपको एक्चुअली
लेबल्ड डाटा की जरूरत ही नहीं है आप कोई
भी पीडीएफ उठाओ और उस पीडीएफ से आप डेटा
सेट जनरेट कर सकते हो यू डोंट हैव टू डू
एनी
लेबलिंग इसका मतलब इंटरनेट पर मौजूद जितना
डाटा है वो सब आप यूज कर सकते हो सो इन
दैट वेज आप बोल सकते हो कि दिस इज अन
सुपरवाइज
टास्क दिस इ अन सुपरवाइज टास्क एंड दैट इज
वई इस तरह की प्री ट्रेनिंग को हम
अनसुपरवाइज्ड
प्री ट्रेनिंग बोलते
हैं ठीक है तो लैंग्वेज मॉडलिंग टास्क इ
एक्चुअली अनसुपरवाइज्ड प्री ट्रेनिंग
टास्क सो यह दो मेन रीजन थे जिसकी वजह से
लैंग्वेज मॉडलिंग
को इस रिसर्च पेपर में प्राइमरी टास्क
लिया गया फॉर प्री ट्रेनिंग तो अब मैं
आपको समझाता हूं कि यूएलएम फिट वाले
रिसर्च पेपर
में रिसर्चस ने क्या सेटअप यूज किया
ट्रांसफर लर्निंग के लिए सो उन्होंने सबसे
पहले
एक मॉडल
लिया जो कि एलएसटीएम का एक वेरिएंट था
उसको हम
एडब्ल्यूडी एलएसटीएम बुलाते हैं अब इसके
डिटेल्स में मैं नहीं जाना चाहता हूं इट्स
लाइक इट वाज स्टेट ऑफ द आर्ट मॉडल टाइम पे
अ और इसको यूज किया उन्होंने ऑन अ डेटा
सेट ऑफ विकपीडिया टेक्स्ट मतलब बेसिकली
विकपीडिया के बहुत सारे आर्टिकल्स लिए और
उसके ऊपर इन्होंने
अनसुपरवाइज्ड
प्री ट्रेनिंग कराया कौन से टास्क पे
लैंग्वेज मॉडलिंग के टास्क पे बेसिकली
अगला वर्ड प्रिडिक्ट करके बताओ यह बोला
उन्होंने इस मॉडल को जैसे ही मॉडल ट्रेन
हो गया
तो इन्होंने इस मॉडल के आउटपुट लेयर को
चेंज कर दिया विथ अ
क्लासिफिका खूब सारे अलग-अलग डेटा सेट्स
दिए जैसे कि आईएमडीबी
का मूवी रिव्यूज का डेटा सेट या ल्प के
रिव्यूज का डेटा सेट या फिर न्यूज डेटा
सेट और इन डेटा सेट्स पर इस मॉडल को ट्रेन
कराया सो दिस पार्ट वास बेसिकली फाइन
ट्यूनिंग और यह करने के बाद फाइनली हमें
जो मॉडल
मिला उसको जब
उन्होंने टेस्ट किया ऑन डिफरेंट इनपुट्स
तो दे रियलाइफ मेंस वाज स्टेट ऑफ द
आर्ट ठीक है द परफॉर्मेंस वाज वेरी गुड
इनफैक्ट इन लोगों ने यहां तक बोला है कि
अगर किसी ने मॉडल को स्क्रैच से ट्रेन
किया
है और
उसका 10000 रोज में जो रिजल्ट आ रहा था इन
लोगों का फाइन ट्यूनिंग यूज करके सिर्फ
100 रोज में उससे बेटर रिजल्ट आ रहा है
इतने का डिफरेंस आ जा रहा है सो बेसिकली
आपको 10000 रोज ऑफ डाटा पे स्क्रैच से
मॉडल ट्यून करने के बदले सिर्फ 100 रोज पे
ये फाइन ट्यून मॉडल मिल
जाए तो आप बेटर परफॉर्म करोगे एंड दिस वाज
रिवोल्यूशन
राइट बस एक चीज आपको यहां पे याद रखनी है
कि इस पेपर में दे डिड नॉट यूज अ
ट्रांसफॉर्मर और उसका रीजन यह था कि यह जो
दोनों पेपर्स है
अटेंशन इज ऑल यू नीड ट्रांसफॉर्मर्स वाला
पेपर जो 2017 में आया और यह वाला पेपर जो
2018 में आया यह मेरे को लगता है दोनों
सेट ऑफ रिसर्चर दे र वर्किंग पैरेलली और
इन दोनों को ही एक दूसरे के काम के बारे
में शायद उस तरीके से अंदाजा नहीं था कि
इतना सही कुछ निकल के आएगा सो बेसिक इस
पॉइंट पर 2018 में अब हमारे पास दो बहुत
पावरफुल टेक्नोलॉजीज है फर्स्ट ऑफ ल
आर्किटेक्चर पॉइंट ऑफ व्यू से हमारे पास
ट्रांसफॉर्मर्स जैसा मॉडल
है और फिर ट्रेनिंग पॉइंट ऑफ व्यू से
हमारे पास ट्रांसफर लर्निंग जैसा टेक्निक
है अब आई गेस आपको ज्यादा इमेजिनेशन की
जरूरत नहीं है यह सोचने के लिए कि अगर आप
ट्रांसफॉर्मर्स के ऊपर ट्रांसफर लर्निंग
लगा दो तो क्या बवाल हो सकता है और वही है
हमारा अगला पार्ट स्टेज फाइव ऑफ द
हिस्ट्री और गाइस फिर जिसका डर था वही हुआ
आई एम किडिंग 2018
में अराउंड 10 महीने बाद मतलब यूएलएम फिट
वाला पेपर शायद जैन में आया था अराउंड
अक्टूबर में दो
नए लैंग्वेज मॉडल्स ट्रांसफॉर्मर बेस्ड
लैंग्वेज मॉडल्स रिलीज हुए वन फ्रॉम
google3 और यह दोनों ही लैंग्वेज मॉडल्स
थे वि बेसिकली मींस कि वो नेक्स्ट वर्ड
प्रेडिक्शन का टास्क कर रहे थे द ओनली
डिफरेंस वाज कि इनका जो ट्रेनिंग था वह एक
ट्रांसफॉर्मर आर्किटेक्चर पर हुआ
था और जो डेटा सेट यूज किया गया था इन
मॉडल्स को ट्रेन करने के लिए दैट डेटा सेट
वास ह्यूज लाइक बहुत बड़ा डेटा सेट ठीक है
जिसकी वजह से यह दोनों जो मॉडल्स थे दे वर
रियली गुड एट द टास्क ऑफ ट्रांसफर
लर्निंग इनफैक्ट दे वर सो गुड कि इनको आप
फाइन ट्यून करके किसी भी तरह का टास्क
करवा सकते थे आप चाह
करके सेंटीमेंट एनालिसिस करवा सकते थे या
फिर एनई आर करवा सकते थे पार्ट्स ऑफ स्पीच
टैगिंग करवा सकते थे क्वेश्चन आंसरिंग
करवा सकते थे टेक्स्ट समरा इजेशन करवा
सकते थे बोथ ऑफ देम र रियली गुड एट इट द
ओनली डिफरेंस इन बोथ ऑफ देम वास
ट बर्ट वास
अ
इनकोडर ओनली मॉडल एंड जीपीटी वास
डिकोडर ओनली
मॉडल बट दोनों थे लैंग्वेज मॉडल्स ही अब
ये एनकोड ओनली और डिकोडर ओनली क्या होता
है ये हम आगे पढ़ेंगे जब हम लोग बर्ट और
जीपीटी डिस्कस करेंगे बट या जैसे ही ये
आया ना उसके बाद हर किसी के पास यह पावर
था कि
वो इन ट्रेड ट्रांसफॉर्मर्स को डाउनलोड कर
सकता था और अपने लिमिटेड
डेटा सेट के ऊपर फाइन ट्यून कर सकता
था और स्टेट ऑफ द आर्ट रिजल्ट्स ला सकता
था और इसके बाद एनएलपी का फील्ड टोटली
ट्रांसफॉर्म हो गया इनफैक्ट ओपन एआई तो
रुका ही नहीं ओपन एआई के जीपीटी के फिर
सक्सेसिव वर्जन आए जीपीटी ट आया एंड उसके
बाद फाइनली जीपीटी थ आया जिसने धमाल मचा
दिया इनफैक्ट यह जो सक्सेसिव लैंग्वेज
मॉडल्स थे यह इतने बड़े थे इतने बड़े मतलब
इनमें इतने ज्यादा पैरामीटर्स
थे और यह इतने बड़े डेटा सेट्स पर ट्रेन
हुए थे कि इनको लैंग्वेज मॉडल बुलाने के
बदले लोगों ने इनको लार्ज लैंग्वेज मॉडल
बुलाना शुरू कर दिया एंड दिस वास द
स्टार्टिंग पॉइंट ऑफ
एलएलएम अब मैं क्विकली एक बार आपके साथ
डिस्कस करता हूं कि कब एक लैंग्वेज मॉडल
लार्ज लैंग्वेज मॉडल कहलाता है तो गाइ चलो
नाउ लेट्स डिस्कस द क्वालिटीज ऑफ एलएल
एम्स मतलब कब एक लैंग्वेज मॉडल लार्ज
लैंग्वेज मॉडल कहलाता है वो डिस्कस करते
हैं तो आई विल टॉक अबाउट फाइव एस्पेक्ट्स
उनमें सबसे पहला एस्पेक्ट जो है वो है
डेटा एलएलएम की खासियत क्या है कि एलएलएम
बहुत बड़े डेटा सेट्स के ऊपर ट्रेन होते
हैं लाइक लिटरली बिलियंस ऑफ वर्ड्स होते
हैं जिन डेटा डेटा सेट्स में उस तरह के
डेटा सेट्स प ट्रेन होते हैं जैसे अगर मैं
आपको एग्जांपल दू जीपीटी 3 का तो जीपीटी थ
ट्रेन हुआ है अराउंड 45 टेराबाइट ऑफ डाटा
के ऊपर यू कैन जस्ट इमेजिन कितना बड़ा
डेटा सेट है ये ये जो डेटा सेट था यह
एक्चुअली सोर्स किया गया फ्रॉम डिफरेंट ई
बुक्स फ्रॉम वेबसाइट्स
एंड फ्रॉम
इन जनरल इंटरनेट लाइक रेडिट टाइप की
वेबसाइट बहुत यूज हुई जीपीटी थ को ट्रेन
होने के लिए एक चीज और बहुत ख्याल रखी
जाती है कि जो डेटा प्रोवाइड करो उसमें
बहुत डाइवर्सिटी हो डाइवर्सिटी का मतलब यह
है कि अलग-अलग सोर्सेस से अलग-अलग टाइप का
डाटा हो ताकि आपके मॉडल में बायस ज्यादा
ना हो ठीक है तो पहला पॉइंट हो गया डाटा
दूसरा पॉइंट है ट्रेनिंग का
हार्डवेयर ओबवियसली डीप लर्निंग मॉडल है
तो इट विल रिक्वायर जीपीयू तो एलएलएम में
भी सेम है एलएलएम में इन फैक्ट यू नीड
क्लस्टर्स ऑफ जीपीयू लाइक डिस्ट्रीब्यूटर
तरीके से ट्रेन होता है एंड यू नीड अ लॉट
ऑफ जीपीयू ठीक है अगेन इफ आई टेक एग्जांपल
ऑफ जीपीटी 3 तो जीपीटी 3 हैज बीन ट्रेन
यूजिंग अ सुपर
कंप्यूटर व्हिच हैज लाइक थाउजेंड्स
ऑफ एडिया का
जीपीयू ठीक है और इसके अलावा रम बहुत
ज्यादा चाहिए इंटरनेट कनेक्टिविटी बहुत
सही होनी चाहिए बिकॉज डिस्ट्रीब्यूटर
कंप्यूटिंग आप यूज कर रहे हो तो हार्डवेयर
में बहुत ज्यादा आपको इन्वेस्ट करना
पड़ेगा इफ यू वांट टू ट्रेन योर ओन एलएलएम
तीसरी बात हम करते हैं ट्रेनिंग टाइम
की तो ओबवियसली जब आप 45 टेराबाइट के
स्केल
डटा को लेकर ट्रेन कर रहे हो तो ट्रेनिंग
टाइम लाजमी है कि बहुत ज्यादा ही लगेगा सो
इवन विथ गुड क्वालिटी हार्डवेयर इट वुड
टेक डेज टू वीक्स इन ऑर्डर टू ट्रेन अ
एलएलएम काफी टाइम लगता है एंड इट ओबवियसली
डिपेंड्स आप किस स्केल प ट्रेनिंग कर रहे
हो क्या हार्डवेयर है बट द ट्रेनिंग टेक्स
अ लॉट ऑफ टाइम नाउ लेट्स टॉक अबाउट द
कॉस्ट अब कॉस्ट में अगर हम बात करें तो
आपको इन्वेस्ट करना होता है हार्डवेयर
में आपको इन्वेस्ट करना होता है
इलेक्ट्रिसिटी में लाइक लिटरली
इलेक्ट्रिसिटी बिल बहुत ज्यादा होता है यू
हैव टू इन्वेस्ट इन इंफ्रास्ट्रक्चर
बिकॉज सुपर कंप्यूटर लेवल की आप बात कर
रहे हो डिस्ट्रीब्यूटर कंप्यूटिंग की आप
बात कर रहे हो तो इंफ्रास्ट्रक्चर पे आपको
बहुत खर्चा करना पड़ता है एंड मोस्ट
इंपोर्टेंट यू नीड एक्सपर्ट्स यू नीड पीपल
जिनको इस लेवल पर काम करना आता है तो यू
नीड ह्यूमन एक्सपर्ट्स
और उनको हायर करने में उनको पे करने में
भी काफी पैसा लगता है तो इन शॉर्ट एलम्स
को अगर आप ट्रेन करने जाओगे इट वुड टेक
मिलियंस ऑफ डॉलर्स लाइक लिटरली 10 20
करोड़ तो आराम से आपके खर्चा हो जाएगा तो
इसी से समझ में आ रहा है कि इसको ट्रेन कर
पाना इंडिविजुअल्स के बस की बात नहीं है
मोस्ट लाइक इसको ट्रेन कौन कर सकता है
लार्ज कंपनीज जैसे कि
मे बी
गवर्नमेंट या फिर इंस्टीट्यूट्स बहुत बड़े
जो इंस्टीट्यूट्स है अब इंडिया में अगर आप
बात करो तो आईआईटी लेवल के इंस्टिट्यूट
आईम नॉट रिली शर अभी आईआईटी ने कोई एलएलएम
को खुद से ट्रेन किया है कि नहीं बट या दे
हैव द पोटेंशियल टू एक्चुअली ट्रेन अ
एलएलएम एंड लास्टली आई वड आई विल जस्ट टॉक
अबाउट एनर्जी
में भी काफी बात होती है बिकॉज एलएलएम को
ट्रेन करने में ना बहुत ज्यादा एनर्जी का
एनर्जी का
कंजंक्शन है एगजैक्टली बता पाना थोड़ा
मुश्किल है आई एम प्रेटी श्यर इसके ऊपर
काफी रिसर्च चल रहा है बट ऐसा बोला जाता
है कि जीपीटी 3 लेवल का एलएलएम को ट्रेन
करने के लिए जिसमें 175 बिलियन के आसपास
पैरामीटर्स है उतना ही एनर्जी लगता है
जितने एनर्जी में एक छोटा शहर महीने भर
अपना काम चला लेगा
छोटा शहर मतलब छोटा शहर ठीक है मंथ
लंग जो एनर्जी
कंजमेट का ऑलमोस्ट उतना ही
कंजमपट्टी
का इलेक्ट्रिसिटी के कंजमपट्टी
वर्किंग ऑन अ वेरी वेरी लार्ज स्केल एंड
दैट इज वय दीज मॉडल्स आर कॉल्ड एलएल एम्स
और आज की डेट में दुनिया क्रेजी हुई पड़ी
है इन मॉडल्स के लिए सो गाइस काफी बात हो
गई हिस्ट्री की अब बात करते हैं प्रेजेंट
की एंड द प्रेजेंट इज चार्ट
जीपीटी चार जीपीटी के लिए आप शायद ये
वीडियो देख रहे हो तो मुझे लगा कि लास्ट
में एक डिस्कशन तो चार जीपी के ऊपर भी
होना चाहिए सो एक लास्ट डिस्कशन करते हैं
कि जीपीटी
थ से चट जीपीटी तक का सफर कैसा
था ठीक है तो सबसे पहले फॉर द अन
इनिश एक छोटी सी चीज क्लेरिफाई कर देते
हैं कि जीपीटी और चैट जीपीटी बोथ आर
डिफरेंट मैंने कुछ स्टूडेंट से बात कि है
तो उनको य कंफ्यूजन रहता है कि जीपीटी एंड
चाट जीपीटी आर द सेम थिंग तो लेट मी
क्लेरिफाई दे आर डिफरेंट जीपीटी जो है वह
मॉडल
है और चैट जीपीटी जो है वह एक एप्लीकेशन
है बेसिकली एक चैट बॉट एप्लीकेशन है जो कि
बनाया गया है यूजिंग द जीपीटी मॉडल सो अगर
आपको एक सिंपलीफाइड एग्जांपल मैं दू तो आप
ऐसे सोचो कि लैपटॉप का एग्जांपल अगर हम
लेते हैं तो लैपटॉप
लेट्स से एप का है बट उसके अंदर जो
प्रोसेसर लगा हुआ है व इटेल का है तो हम
यह नहीं बोलेंगे कि लैपटॉप इंटेल का है
लैपटॉप एचपी ही है उसके अंदर प्रोसेसर
इंटेल का है तो यहां पर एचपी हो गया चा
जीपीटी और इंटेल हो गया अपना जीपीटी अब
मजे की बात यह है कि जिस तरीके से इटेल का
प्रोसेसर यूज करके डेल का लैपटॉप भी बन
सकता
है असस का लैपटॉप भी बन सकता है सिमिलर ली
जीपीटी को यूज करके और बहुत तरह के
एप्लीकेशंस भी बन सकते हैं जैसे आपने शायद
ग के बाड का नाम सुना होगा या फिर जैस्पर
का नाम सुना होगा तो यह सारे कुछ
एप्लीकेशंस है जो जीपीटी को यूज करके ही
बने बट वही है कि चार्ट जीपीटी इज द मोस्ट
फेमस एप्लीकेशन ऑफ
जीपीटी ठीक है तो लास्ट ईयर नवंबर के
अराउंड रिलीज हुआ था और उसके बाद से तो
पूरी दुनिया में भूचाल आ गया एवरीवन इज
टॉकिंग अबाउट दिस क्रेजी गुड एप्लीकेशन जो
बिल्कुल ह्यूमन जैसा चैट प्रोड्यूस कर
सकता है तो सबको यह पता है कि चट जीपीटी
क्या है और वह क्या कर सकता है बट बहुत कम
लोगों को पता है कि चट जीपीटी को बनाने का
प्रोसेस क्या
था जीपीटी
से चट जीपीटी तक कैसे पहुंचा गया जीपीटी थ
से स्पेसिफिकली चैट जीपीटी तक कैसे पहुंचा
गया तो मैं आपको बता बता हूं कुछ चार पांच
पॉइंट्स में कि चैट जीपीटी को कैसे बनाया
गया यूजिंग जीपीटी 3 सो ओबवियसली जीपीटी 3
को उठाया गया और उसके ऊपर तीन चार
मॉडिफिकेशन किए गए मैं आपको एक एक करके
बताता हूं जो सबसे
फेमस और इंटरेस्टिंग चीज की गई इन ऑर्डर
टू बिल्ड चार्ट जीपीटी दैट वाज आर एल एच
एफ अगर आप किसी भी ओपन एआई के सीनियर
इंजीनियर या फिर फाउंडर वगैरह का इंटरव्यू
सुनोगे तो उन्होंने यह टर्म बहुत बार बोला
है इस टर्म का फुल फॉर्म होता है
रिइंफोर्समेंट
लर्निंग फ्रॉम ह्यूमन
फीडबैक ठीक है मैं इसका मतलब समझाता हूं
प्रिसा इजली य जो प्रोसेस है ये दो
स्टेप्स में एग्जीक्यूट होता है सो इन द
फर्स्ट स्टेप ओपन एआई ने क्या किया कि उन
लोगों ने सुपरवाइज फाइन ट्यूनिंग
किया यू हैव टू रिमेंबर लैंग्वेज मॉडलिंग
में हम अन सुपरवाइज फाइन ट्यूनिंग कर करते
थे बट चैट जीपीटी बनाने के लिए ओपन एआई ने
स्पेसिफिकली सुपरवाइज्ड फाइन ट्यूनिंग
किया सो इस सुपरवाइज फाइन ट्यूनिंग में
उन्होंने क्या किया एक बड़ा सा डेटा सेट
गैदर किया जहां पर ह्यूमंस के बीच के
कन्वर्सेशन का डाटा था इट कुड बी एनीथिंग
इट कुड बी रेट इट कुड बी जीमल टाइप का
डाटा और व्हाट एवर बट इट वाज लाइक ह्यूमंस
के बीच का कन्वर्सेशन का डाटा सो अगर यह
बात बोली गई है तो उसके रिप्लाई में क्या
बोला गया है उसके रिप्लाई में क्या बोला
गया उसके रिप्लाई में क्या बोला गया तो
दिस वाज काइंड ऑफ लेबल्ड डाटा कि इस इनपुट
के लिए आउटपुट रिस्पांस क्या देना है इस
इनपुट के लिए आउटपुट रिस्पांस क्या देना
है इस तरीके से हमको हमने यह डाटा
प्रोवाइड किया चट जीपीटी को उसके बाद
सेकंड स्टेप में क्या किया जाता है कि
रिइंफोर्समेंट लर्निंग अप्लाई किया गया
ठीक है चट जीपीटी को बोला गया कि फॉर
पर्टिकुलर प्रोमट और
इनपुट
प्रोड्यूस
रिस्पांसस तो जीपीटी मल्टीपल रिस्पांसस
देता था अब क्या हुआ कि ह्यूमंस आए इस लूप
में जो उनके इंजीनियर्स थे या जो भी उनका
टीम था ह्यूमंस क्या करने लग गए कि चाट
जीपीटी का जो रिस्पांसस आ रहे थे उसको
रैंक करने लग गए इन अ वे चाट जीपीटी को
बताने लग गए कि तुमने अगर ये 10 आंसर्स
दिए तो इसमें से ये आंसर बेस्ट था ये आंसर
सेकंड बेस्ट था सो इस तरीके से
रिइंफोर्समेंट लर्निंग विथ ह्यूमन फीडबैक
इंप्लीमेंट किया गया ओबवियसली मैं आपको
बहुत हाई लेवल ओवरव्यू दे रहा हूं बट दैट
वाज द कोर आईडिया बिहाइंड आर एलएचएफ और आज
की डेट में भी खुद उनकी टीम एक्सेप्ट करती
है कि दिस वास दैट ग्रेट आईडिया जिसने
चार्ट जीपीटी को इतना पॉपुलर बनाया ठीक है
चार्ट जीपीटी को बनाने में एक और बहुत
इंपॉर्टेंट चीज जो ओपन एआई की टीम ने की
वो था टू
इनकॉरपोरेट टू
इनकॉरपोरेट
सेफ्टी एंड एथिकल गाइडलाइंस
शायद ही आपने ऑलरेडी एक्सपीरियंस कर लिया
होगा कि आप चैट जीपीटी से लेटस से पूछ लो
कि भाई बॉम कैसे बनाया जाता है तो देर ज अ
गुड चांस आई एम प्रिटी शर देर इ गुड चांस
कि वह आपको नहीं बताएगा और वह आपको इस
तरीके से बोलेगा कि यह सही नहीं है ठीक है
तो हुआ क्या
कि चर जीपीटी को बनाने के प्रोसेस में ओपन
एआई की टीम ने काफी मेहनत
की टू अवॉइड हार्मफुल एंड
एप्रोप्रियेट उन्होंने एक्चुअली अपना डाटा
बहुत अलग-अलग जगहों से सोर्स किया सो दैट
जो
बायसेन रहे ठीक है थर्ड एक और इंटरेस्टिंग
चीज ओपन एआई ने जो की वो था इंप्रूवमेंट
इन
कंटेक्सचर्स
ये एक बहुत इंपॉर्टेंट पॉइंट है सो जीपीटी
थ जो था वो एक इनपुट के लिए एक रिस्पांस
देता था और चीजों को भूल जाता था उसके
अंदर ऐसा कॉन्टेक्स्ट रिटेन करने का पावर
नहीं था बट चैट जीपीटी में यह पावर है चैट
जीपीटी कैन एक्चुअली मेंटेन कॉन्टेक्स्ट
मतलब अगर मैं उससे किसी एक पर्टिकुलर
टॉपिक के बारे में बात कर रहा हूं तो मैं
उससे यह बात बोल सकता हूं कि सुनो जो
तुमने तीन क्वेश्चन पहले जो आंसर किया था
उसमें तुमने यह क्यों बोला एंड चार जीपीटी
विल एक्चुअली रिमेंबर दैट एंड दैट इज
एक्चुअली वेरी इंपोर्टेंट फॉर डायलॉग्स
एंड कन्वर्सेशन राइट कन्वर से के लिए बहुत
इंपोर्टेंट है कि आप जिससे बात कर रहे हो
उसको एटलीस्ट याद रहे कि पा मिनट पहले हम
क्या बात कर रहे हैं तो चाट जीपीटी में यह
चीज डाली गई
एक्सप्लीसिटली फोर्थ
है जो ट्रेनिंग हुई है चार जीपीटी की वह
बहुत डायलॉग स्पेसिफिक ट्रेनिंग हुई
है जीपीटी जो था जीपीटी व जीपीटी टू
जीपीटी थ उसका जो ट्रेनिंग है दैट वास
लाइक लैंग्वेज मॉडलिंग नेक्स्ट वर्ड
प्रेडिक्शन बट चार जीपीटी में एक्स ली जो
सुपरवाइज प्री ट्रेनिंग सुपरवाइज फाइन
ट्यूनिंग हुआ है वहां पर पूरे टाइम चट
जीपीटी को कन्वर्सेशन बेस्ड डाटा दिया गया
जिससे क्या फायदा हुआ कि चार जीपीटी को
थोड़ा बेटर अंडरस्टैंडिंग
है कि ह्यूमंस कैसे बात करते हैं और
डायलॉग
हैवी जो लैंग्वेज है उसमें क्या पैटर्न
होते हैं सिंपल सी बात है जो डाटा के ऊपर
उसने पढ़ाई की चीज के बारे में उसको
ज्यादा पता है सो ज्यादा फोकस्ड है चैट
करने के लिए ठीक है एंड द लास्ट पॉइंट वाज
ओपन एआई हैज बीन प्रो एक्टिव इन द सेंस कि
उन्होंने थ्रू आउट दिस लास्ट वन ईयर चार्ट
जीपीटी को
कंटीन्यूअसली इंप्रूव किया
है बेस्ड
ऑन ह्यूमन फीडबैक और ह्यूमन फीडबैक थोड़ा
टेक्निकल साउंड कर रहा है यूजर फीडबैक सो
आप नोटिस करोगे आज की डेट में भी अगर आप
चार्ट जीपीटी यूज करोगे वहां पे थम्स अप
आइकन थम्स डाउन आइकन रहता है जिससे आप बता
सकते हो कि आपको आंसर सही लगा सही नहीं
लगा बीच में मैंने नोटिस किया था कि जब भी
मैं क्वेश्चन पूछ रहा था तो चाट जीपीटी दो
आंसर्स एक साथ प्रिंट कर रहा था और फिर
एंड में पूछ रहा था कि ये अच्छा लगा या ये
अच्छा लगा तो इस तरीके से क्या हो रहा है
कि ओपन एई इज मेकिंग श्यर कि वो
कंटीन्यूअसली यूजर से फीडबैक ले रहे हैं
और उस फीडबैक के बेसिस पर दे आर ट्रेनिंग
एंड
[संगीत]
रिफाइनिशिव प्रोडक्ट्स फ्रॉम द सेम फैमिली
सो दैट वाज द वीडियो गाइ अ थोड़ा लंबा
वीडियो था आई नो बट आई एम होपिस वीडियो से
काफी नॉलेज मिला होगा अगर आपको वीडियो
पसंद आया तो प्लीज लाइक करना आई एम
प्लानिंग टू मेक वन मोर वीडियो जो इस
वीडियो का सीक्वल होगा और वहां पे मैं
क्या कवर करने वाला हूं कि चट जीपीटी के
आने के बाद से पिछले एक साल में क्या-क्या
एडवांसमेंट्स हुई अ एक बार आप कमेंट में
लिख करके बताना अगर आप वो वीडियो देखना
चाहते हो अ इनफ कमेंट्स होंगे तो ही मैं
वो वीडियो बनाऊंगा बाकी आई होप वीडियो ये
वाला आपको पसंद आया अगर पसंद आया तो प्लीज
लाइक करना और अगर आपने मेरे चैनल को
सब्सक्राइब नहीं किया है प्लीज सब्सक्राइब
मिलते हैं नेक्स्ट वीडियो में बाय