pandas 0.23 - DataFrame.info()

pandas.DataFrame.info




pandas

pandas.DataFrame.info

DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, null_counts=None) [source]

किसी DataFrame का संक्षिप्त सारांश प्रिंट करें।

यह विधि एक डेटाफ्रेम के बारे में जानकारी को प्रिंट करती है जिसमें सूचकांक dtype और कॉलम dtypes, गैर-शून्य मान और मेमोरी उपयोग शामिल हैं।

पैरामीटर:

क्रिया : बूल, वैकल्पिक

पूर्ण सारांश मुद्रित करना है या नहीं। डिफ़ॉल्ट रूप से, pandas.options.display.max_info_columns में सेटिंग का पालन किया जाता है।

buf : लिखने योग्य बफर, sys.stdout में चूक

आउटपुट कहाँ भेजें। डिफ़ॉल्ट रूप से, आउटपुट sys.stdout पर मुद्रित होता है। यदि आपको आउटपुट को और संसाधित करने की आवश्यकता हो, तो एक लिखित बफर पास करें।

max_cols : इंट, वैकल्पिक

जब क्रिया से छंटनी आउटपुट पर स्विच करना है। यदि DataFrame में max_cols कॉलम से अधिक है, तो काटे गए आउटपुट का उपयोग किया जाता है। डिफ़ॉल्ट रूप से, pandas.options.display.max_info_columns में सेटिंग का उपयोग किया जाता है।

memory_usage : बूल, str, वैकल्पिक

निर्दिष्ट करता है कि क्या DataFrame तत्वों (सूचकांक सहित) का कुल मेमोरी उपयोग प्रदर्शित किया जाना चाहिए। डिफ़ॉल्ट रूप से, यह pandas.options.display.memory_usage सेटिंग का अनुसरण करता है।

सच हमेशा स्मृति उपयोग दिखाते हैं। झूठी स्मृति उपयोग को कभी नहीं दिखाता है। Int डीप ’का एक मूल्य“ गहरी आत्मनिरीक्षण के साथ सही ”के बराबर है। मेमोरी उपयोग मानव-पठनीय इकाइयों (बेस -2 प्रतिनिधित्व) में दिखाया गया है। गहरी आत्मनिरीक्षण के बिना एक स्मृति आकलन स्तंभ dtype और मानों की संख्या के आधार पर किया जाता है मान मान इसी dtypes के लिए एक ही स्मृति राशि का उपभोग करते हैं। गहरी स्मृति आत्मनिरीक्षण के साथ, कम्प्यूटेशनल संसाधनों की कीमत पर एक वास्तविक मेमोरी उपयोग गणना की जाती है।

null_counts : बूल, वैकल्पिक

नॉन-नाउल काउंट्स दिखाना है या नहीं। डिफ़ॉल्ट रूप से, यह केवल तभी दिखाया जाता है जब फ़्रेम pandas.options.display.max_info_rows और pandas.options.display.max_info_columns से छोटा होता है। ट्रू का मान हमेशा मायने रखता है, और गलत कभी मायने नहीं रखता है।

यह दिखाता है:

कोई नहीं

यह विधि किसी DataFrame का सारांश प्रिंट करती है और कोई नहीं लौटाता है।

यह भी देखें

DataFrame.describe
DataFrame कॉलम के वर्णनात्मक आँकड़े उत्पन्न करें।
DataFrame.memory_usage
DataFrame कॉलम की मेमोरी उपयोग।

उदाहरण

>>> int_values = [1, 2, 3, 4, 5]
>>> text_values = ['alpha', 'beta', 'gamma', 'delta', 'epsilon']
>>> float_values = [0.0, 0.25, 0.5, 0.75, 1.0]
>>> df = pd.DataFrame({"int_col": int_values, "text_col": text_values,
...                   "float_col": float_values})
>>> df
   int_col text_col  float_col
0        1    alpha       0.00
1        2     beta       0.25
2        3    gamma       0.50
3        4    delta       0.75
4        5  epsilon       1.00

सभी कॉलम की जानकारी प्रिंट करता है:

>>> df.info(verbose=True)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
int_col      5 non-null int64
text_col     5 non-null object
float_col    5 non-null float64
dtypes: float64(1), int64(1), object(1)
memory usage: 200.0+ bytes

कॉलम संख्या और उसके dtypes का सारांश प्रिंट करता है, लेकिन कॉलम जानकारी के अनुसार नहीं:

>>> df.info(verbose=False)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Columns: 3 entries, int_col to float_col
dtypes: float64(1), int64(1), object(1)
memory usage: 200.0+ bytes

DataFrame.info के पाइप आउटपुट को sys.stdout के बजाय बफर करने के लिए, बफर सामग्री प्राप्त करें और एक टेक्स्ट फ़ाइल पर लिखें:

>>> import io
>>> buffer = io.StringIO()
>>> df.info(buf=buffer)
>>> s = buffer.getvalue()
>>> with open("df_info.txt", "w", encoding="utf-8") as f:
...     f.write(s)
260

memory_usage पैरामीटर गहरी आत्मनिरीक्षण मोड की अनुमति देता है, विशेष रूप से बड़े डेटाफ़्रेम और फाइन-ट्यून मेमोरी ऑप्टिमाइज़ेशन के लिए उपयोगी है:

>>> random_strings_array = np.random.choice(['a', 'b', 'c'], 10 ** 6)
>>> df = pd.DataFrame({
...     'column_1': np.random.choice(['a', 'b', 'c'], 10 ** 6),
...     'column_2': np.random.choice(['a', 'b', 'c'], 10 ** 6),
...     'column_3': np.random.choice(['a', 'b', 'c'], 10 ** 6)
... })
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 3 columns):
column_1    1000000 non-null object
column_2    1000000 non-null object
column_3    1000000 non-null object
dtypes: object(3)
memory usage: 22.9+ MB
>>> df.info(memory_usage='deep')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 3 columns):
column_1    1000000 non-null object
column_2    1000000 non-null object
column_3    1000000 non-null object
dtypes: object(3)
memory usage: 188.8 MB