pandas 0.23 - DataFrame.describe()

pandas.DataFrame.describe




pandas

pandas.DataFrame.describe

DataFrame.describe(percentiles=None, include=None, exclude=None) [source]

ऐसे वर्णनात्मक आँकड़े उत्पन्न करता है जो NaN मूल्यों को छोड़कर केंद्रीय प्रवृत्ति, डेटासेट के वितरण के आकार और आकार को सारांशित करते हैं।

दोनों संख्यात्मक और ऑब्जेक्ट श्रृंखला, साथ ही मिश्रित डेटा प्रकारों के DataFrame स्तंभ सेट का DataFrame करता है। जो प्रदान किया गया है उसके आधार पर आउटपुट अलग-अलग होगा। अधिक विवरण के लिए नीचे दिए गए नोट देखें।

पैरामीटर:

प्रतिशतक : संख्या की तरह, वैकल्पिक

आउटपुट में शामिल करने के लिए प्रतिशतक। सभी को 0 और 1 के बीच में आना चाहिए। डिफ़ॉल्ट [.25, .5, .75] , जो 25 वें, 50 वें और 75 वें प्रतिशत पर लौटता है।

शामिल हैं : 'सभी', dtypes की सूची या कोई नहीं (डिफ़ॉल्ट), वैकल्पिक

परिणाम में शामिल करने के लिए डेटा प्रकारों की एक सफेद सूची। Series लिए नजरअंदाज कर दिया। यहाँ विकल्प हैं:

  • 'all': इनपुट के सभी कॉलम आउटपुट में शामिल किए जाएंगे।
  • Dtypes की एक सूची-प्रकार: प्रदान किए गए डेटा प्रकारों के परिणामों को सीमित करता है। संख्यात्मक प्रकार के परिणाम को सीमित करने के लिए numpy.number सबमिट numpy.number । ऑब्जेक्ट कॉलम के बजाय इसे सीमित करने के लिए numpy.object डेटा प्रकार सबमिट करें। स्ट्रिंग्स का select_dtypes की शैली में भी किया जा सकता है (जैसे df.describe(include=['O']) )। पांडा श्रेणीगत कॉलमों का चयन करने के लिए, 'category' उपयोग करें
  • कोई नहीं (डिफ़ॉल्ट): परिणाम में सभी संख्यात्मक कॉलम शामिल होंगे।

बहिष्कृत : सूची-प्रकार जैसे dtypes या कोई नहीं (डिफ़ॉल्ट), वैकल्पिक,

परिणाम से चूकने के लिए डेटा प्रकारों की एक काली सूची। Series लिए नजरअंदाज कर दिया। यहाँ विकल्प हैं:

  • Dtypes की एक सूची-प्रकार: परिणाम से प्रदान किए गए डेटा प्रकारों को छोड़ दें। संख्यात्मक प्रकारों को बाहर करने के लिए numpy.number सबमिट numpy.number । ऑब्जेक्ट कॉलम को बाहर करने के लिए डेटा प्रकार को numpy.object सबमिट करें। स्ट्रिंग्स का select_dtypes की शैली में भी किया जा सकता है (जैसे df.describe(include=['O']) )। पंडों को श्रेणीबद्ध कॉलम से बाहर करने के लिए, 'category' उपयोग करें
  • कोई नहीं (डिफ़ॉल्ट): परिणाम कुछ नहीं को बाहर कर देगा।
यह दिखाता है:
सारांश: सारांश आंकड़ों की श्रृंखला / डाटाफ्रेम

टिप्पणियाँ

संख्यात्मक डेटा के लिए, परिणाम के सूचकांक में count , mean , std , min , max और साथ ही निचले, 50 और ऊपरी प्रतिशत शामिल होंगे। डिफ़ॉल्ट रूप से निचला प्रतिशतक 25 और ऊपरी प्रतिशत 7550 प्रतिशत माध्यिका के समान है।

ऑब्जेक्ट डेटा (जैसे स्ट्रिंग्स या टाइमस्टैम्प) के लिए, परिणाम के सूचकांक में count , unique , top और freqtop सबसे आम मूल्य है। freq सबसे आम मूल्य की आवृत्ति है। टाइमस्टैम्प में first और last आइटम भी शामिल हैं।

यदि कई ऑब्जेक्ट वैल्यूज की गिनती सबसे अधिक है, तो count और top परिणाम मनमाने ढंग से सबसे अधिक गिनती वाले लोगों में से चुने जाएंगे।

एक DataFrame माध्यम से प्रदान किए गए मिश्रित डेटा प्रकारों के लिए, डिफ़ॉल्ट केवल संख्यात्मक स्तंभों के विश्लेषण को वापस करना है। यदि डेटाफ़्रेम में बिना किसी संख्यात्मक कॉलम के केवल ऑब्जेक्ट और श्रेणीबद्ध डेटा होते हैं, तो डिफ़ॉल्ट ऑब्जेक्ट और श्रेणीबद्ध कॉलम दोनों का विश्लेषण वापस करना है। यदि एक विकल्प के रूप include='all' प्रदान किया जाता है, तो परिणाम में प्रत्येक प्रकार की विशेषताओं का एक संघ शामिल होगा।

include और exclude मापदंडों का उपयोग यह सीमित करने के लिए किया जा सकता है कि आउटपुट के लिए DataFrame में कौन से कॉलम का विश्लेषण किया जाता है। किसी Series का विश्लेषण करते समय मापदंडों की अनदेखी की जाती है।

उदाहरण

एक संख्यात्मक Series वर्णन करना।

>>> s = pd.Series([1, 2, 3])
>>> s.describe()
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0

एक श्रेणीबद्ध Series वर्णन।

>>> s = pd.Series(['a', 'a', 'b', 'c'])
>>> s.describe()
count     4
unique    3
top       a
freq      2
dtype: object

एक टाइमस्टैम्प Series वर्णन।

>>> s = pd.Series([
...   np.datetime64("2000-01-01"),
...   np.datetime64("2010-01-01"),
...   np.datetime64("2010-01-01")
... ])
>>> s.describe()
count                       3
unique                      2
top       2010-01-01 00:00:00
freq                        2
first     2000-01-01 00:00:00
last      2010-01-01 00:00:00
dtype: object

एक DataFrame वर्णन DataFrame । डिफ़ॉल्ट रूप से केवल संख्यात्मक फ़ील्ड लौटाए जाते हैं।

>>> df = pd.DataFrame({ 'object': ['a', 'b', 'c'],
...                     'numeric': [1, 2, 3],
...                     'categorical': pd.Categorical(['d','e','f'])
...                   })
>>> df.describe()
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

डेटा प्रकार की परवाह किए बिना किसी DataFrame सभी कॉलम का वर्णन करना।

>>> df.describe(include='all')
        categorical  numeric object
count            3      3.0      3
unique           3      NaN      3
top              f      NaN      c
freq             1      NaN      1
mean           NaN      2.0    NaN
std            NaN      1.0    NaN
min            NaN      1.0    NaN
25%            NaN      1.5    NaN
50%            NaN      2.0    NaN
75%            NaN      2.5    NaN
max            NaN      3.0    NaN

एक DataFrame से एक कॉलम को एक विशेषता के रूप में एक्सेस करके वर्णन करना।

>>> df.numeric.describe()
count    3.0
mean     2.0
std      1.0
min      1.0
25%      1.5
50%      2.0
75%      2.5
max      3.0
Name: numeric, dtype: float64

जिसमें DataFrame विवरण में केवल संख्यात्मक कॉलम शामिल हैं।

>>> df.describe(include=[np.number])
       numeric
count      3.0
mean       2.0
std        1.0
min        1.0
25%        1.5
50%        2.0
75%        2.5
max        3.0

जिसमें DataFrame विवरण में केवल स्ट्रिंग कॉलम शामिल हैं।

>>> df.describe(include=[np.object])
       object
count       3
unique      3
top         c
freq        1

जिसमें DataFrame विवरण से केवल श्रेणीबद्ध कॉलम शामिल हैं।

>>> df.describe(include=['category'])
       categorical
count            3
unique           3
top              f
freq             1

एक DataFrame विवरण से संख्यात्मक कॉलम को छोड़कर।

>>> df.describe(exclude=[np.number])
       categorical object
count            3      3
unique           3      3
top              f      c
freq             1      1

किसी DataFrame विवरण से ऑब्जेक्ट कॉलम को छोड़कर।

>>> df.describe(exclude=[np.object])
        categorical  numeric
count            3      3.0
unique           3      NaN
top              f      NaN
freq             1      NaN
mean           NaN      2.0
std            NaN      1.0
min            NaN      1.0
25%            NaN      1.5
50%            NaN      2.0
75%            NaN      2.5
max            NaN      3.0