అన్వేషణాత్మక డేటా విశ్లేషణ: ఫ్రీక్వెన్సీ టేబుల్స్, రెండు‑వే టేబుల్స్, సంభావ్యతలు, సహసంబంధం
పరిచయం
ఈ ఉపన్యాసంలో అన్వేషణాత్మక డేటా విశ్లేషణ (EDA) కోసం అవసరమైన పద్ధతులు, Python‑లో pandas లైబ్రరీని ఉపయోగించి డేటాను ఎలా దిగుమతి చేసుకోవాలి, శుభ్రపరచాలి, మరియు వివిధ గణాంక పట్టికలను సృష్టించాలి అనే విషయాలు వివరించబడ్డాయి.
1. డేటా దిగుమతి & సిద్ధత
osలైబ్రరీ ద్వారా పని చేసే డైరెక్టరీని మార్చి, CSV ఫైల్ (toyota.csv) ను pandas (pd.read_csv) ద్వారా చదివారు.index_col=0ద్వారా మొదటి కాలమ్ను ఇండెక్స్గా సెట్ చేశారు.- డేటాసెట్లో "?" గుర్తులతో సూచించిన మిస్డ్ విలువలు ఉన్నాయి; ఇవి pandas లో
NaN(non‑value) గా పరిగణించబడతాయి. - అసలు డేటాను మార్చకుండా ఉండటానికి
df.copy()ద్వారా కాపీని సృష్టించారు.
2. ఫ్రీక్వెన్సీ టేబుల్ (క్రాస్‑ట్యాబ్యులేషన్)
- వర్గీకరణ చరరాశుల (ఉదా:
fuel_type) మధ్య పంపిణీని తెలుసుకోవడానికిpd.crosstabను ఉపయోగించారు. dropna=Trueద్వారా మిస్డ్ విలువలున్న రికార్డులను తొలగించి, 1336 చెల్లుబాటు అయ్యే రికార్డులతో టేబుల్ను రూపొందించారు.- ఫలితంగా CNG, Petrol, Diesel వంటి ఇంధన రకాలలో ప్రతి ఒక్కటి ఎంత కార్లు కలిగి ఉన్నాయో చూపించబడింది (Petrol = 1077, Diesel = 144, CNG = 15).
3. రెండు‑వే (టూ‑వే) టేబుల్
fuel_typeమరియుautomatic(గేర్బాక్స్ రకం) మధ్య సంబంధాన్ని తెలుసుకోవడానికి అదేcrosstabఫంక్షన్ను ఉపయోగించారు.- ఫలితంగా, ఆటోమేటిక్ గేర్బాక్స్ ఉన్న కార్లు ప్రధానంగా Petrol = 1077, CNG = 0, Diesel = 0 వంటి పంపిణీ కనిపించింది.
4. సంభావ్యతల లెక్కింపు
- ఉమ్మడి సంభావ్యత: టేబుల్ విలువలను మొత్తం రికార్డుల సంఖ్యతో భాగించి పొందారు (
normalize='all'). - ఉపాంత (మార్జిన్) సంభావ్యత:
normalize='index'లేదాnormalize='columns'ద్వారా వరుస/కాలమ్ మొత్తాలను 1 గా సాధారణీకరించారు. - షరతులతో కూడిన సంభావ్యత:
normalize='index'(లేదాcolumns) ద్వారా ఒక వర్గం ఇప్పటికే జరిగినప్పుడు మరొక వర్గం సంభవించే అవకాశాన్ని లెక్కించారు. ఉదాహరణ: మాన్యువల్ గేర్బాక్స్ ఉన్న కార్లు CNG = 0.01, Diesel = 0.11, Petrol ≈ 0.87 వంటి విలువలు.
5. సహసంబంధ (Correlation) విశ్లేషణ
- సంఖ్యా చరరాశుల (price, age, km_driven, weight, etc.) మధ్య సంబంధాన్ని
df.corr()(Pearson) ద్వారా లెక్కించారు. corrమ్యాట్రిక్స్లో 1 = పూర్తి సానుకూల, -1 = పూర్తి ప్రతికూల, 0 = సంబంధం లేనిది.- ఉదాహరణలు:
- price‑age: -0.87 (బలమైన ప్రతికూల సంబంధం – వయస్సు పెరిగే కొద్దీ ధర తగ్గుతుంది)
- price‑km_driven: -0.58 (మధ్యస్థ ప్రతికూల సంబంధం)
- weight‑price: 0.58 (సానుకూల సంబంధం – బరువు ఎక్కువైతే ధర ఎక్కువ)
- స్కాటర్ ప్లాట్ల ద్వారా విజువల్గా ధోరణులను పరిశీలించారు.
6. ముగింపు & పునర్విమర్శ
- ఫ్రీక్వెన్సీ టేబుల్స్ వర్గీకరణ చరరాశుల పంపిణీని, రెండు‑వే టేబుల్స్ వర్గాల మధ్య సంబంధాన్ని, సంభావ్యతల మార్పులను, మరియు షరతులతో కూడిన సంభావ్యతలను స్పష్టంగా చూపిస్తాయి.
- సహసంబంధం సంఖ్యా చరరాశుల మధ్య బలాన్ని పరిమాణాత్మకంగా అంచనా వేయడానికి ముఖ్యమైన సాధనం.
- pandas‑ని ఉపయోగించడం ద్వారా ఈ అన్ని విశ్లేషణలను కోడ్లో కొన్ని లైన్లతో సులభంగా అమలు చేయవచ్చు.
అన్వేషణాత్మక డేటా విశ్లేషణలో ఫ్రీక్వెన్సీ, రెండు‑వే, సంభావ్యత, షరతులతో కూడిన సంభావ్యత, మరియు సహసంబంధం వంటి పద్ధతులను pandas ద్వారా సమర్థవంతంగా అమలు చేయవచ్చు; ఇవి డేటా నిర్మాణాన్ని, వర్గాల మధ్య సంబంధాన్ని, మరియు సంఖ్యా చరరాశుల పరస్పర ప్రభావాన్ని స్పష్టంగా చూపిస్తాయి, తద్వారా తదుపరి మోడలింగ్ లేదా నిర్ణయ‑ప్రక్రియకు బలమైన పునాది ఏర్పడుతుంది.
Frequently Asked Questions
Who is NPTEL-NOC IITM on YouTube?
NPTEL-NOC IITM is a YouTube channel that publishes videos on a range of topics. Browse more summaries from this channel below.
Does this page include the full transcript of the video?
Yes, the full transcript for this video is available on this page. Click 'Show transcript' in the sidebar to read it.
Helpful resources related to this video
If you want to practice or explore the concepts discussed in the video, these commonly used tools may help.
Links may be affiliate links. We only include resources that are genuinely relevant to the topic.