pandas 0.23 - pandas.read_excel()

pandas.read_excel




pandas

pandas.read_excel

pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=True, **kwds) [source]

एक पांडा तालिका में एक Excel तालिका पढ़ें DataFrame

पैरामीटर:

io : स्ट्रिंग, पथ ऑब्जेक्ट (pathlib.Path या py._path.local.LocalPath),

फ़ाइल की तरह वस्तु, पांडा एक्सेलफाइल, या xlrd कार्यपुस्तिका। स्ट्रिंग एक URL हो सकता है। मान्य URL योजनाओं में http, ftp, s3 और फ़ाइल शामिल हैं। फ़ाइल URL के लिए, एक होस्ट अपेक्षित है। उदाहरण के लिए, एक स्थानीय फ़ाइल फ़ाइल हो सकती file://localhost/path/to/workbook.xlsx

sheet_name : स्ट्रिंग, इंट, स्ट्रिंग्स / इनट्स की मिश्रित सूची, या कोई नहीं, डिफ़ॉल्ट 0

स्ट्रिंग्स का उपयोग शीट नामों के लिए किया जाता है, इंटेगर का उपयोग शून्य-अनुक्रमित शीट पोजीशन में किया जाता है।

स्ट्रिंग्स / पूर्णांक की सूचियों का उपयोग कई शीटों के अनुरोध के लिए किया जाता है।

सभी शीट प्राप्त करने के लिए कोई भी निर्दिष्ट करें।

str | int -> DataFrame वापस आ गया है। सूची | कोई नहीं -> डेटाफ्रेम के डिक्ट को लौटाया जाता है, जिसमें चादरों का प्रतिनिधित्व किया जाता है।

उपलब्ध मामले

  • डेटाफ़्रेम के रूप में 0 -> 1 शीट के लिए डिफ़ॉल्ट
  • 1 -> डेटाफ़्रेम के रूप में 2 शीट
  • "शीट 1" -> डेटाफ़्रेम के रूप में पहली शीट
  • [०,१, "शीट ५"] -> १, २ और ५ वीं शीट डेटाफ्रैम के शब्दकोश के रूप में
  • कोई नहीं -> DataFrames के शब्दकोश के रूप में सभी पत्रक

sheetname : string, int, strings / ints की मिली-जुली सूची, या कोई नहीं, डिफ़ॉल्ट 0

संस्करण 0.21.0 के बाद से पदावनत: इसके बजाय sheet_name उपयोग करें

शीर्ष लेख : int, सूची की सूची, डिफ़ॉल्ट 0

पंक्तिबद्ध (0-अनुक्रमित) पार्स किए गए DataFrame के स्तंभ लेबल के लिए उपयोग करना। यदि पूर्णांकों की एक सूची पारित की जाती है, तो उन पंक्ति पदों को एक MultiIndex में जोड़ा जाएगा। हेडर न होने पर कोई भी इस्तेमाल करें।

नाम : सरणी की तरह, डिफ़ॉल्ट कोई नहीं

उपयोग करने के लिए कॉलम नामों की सूची। यदि फ़ाइल में कोई हेडर पंक्ति नहीं है, तो आपको स्पष्ट रूप से हेडर = कोई नहीं पास करना चाहिए

index_col : int, ints की सूची, डिफ़ॉल्ट कोई नहीं

DataFrame की पंक्ति लेबल के रूप में उपयोग करने के लिए कॉलम (0-अनुक्रमित)। यदि कोई ऐसा कॉलम नहीं है तो पास करें। यदि कोई सूची पास की जाती है, तो उन कॉलमों को एक MultiIndex में जोड़ा जाएगा। यदि डेटा का एक सबसेट usecols साथ चुना जाता है, तो index_col सबसेट पर आधारित होता है।

parse_cols : int या सूची, डिफ़ॉल्ट कोई नहीं

संस्करण 0.21.0 के बाद से पदावनत: इसके बजाय usecols में पास।

usecols : int या सूची, डिफ़ॉल्ट कोई नहीं

  • यदि कोई नहीं तो सभी स्तंभों को पार्स करें,
  • यदि int तो अंतिम कॉलम को पार्स करने का संकेत देता है
  • यदि ints की सूची तो स्तंभ संख्याओं की सूची को इंगित करती है
  • यदि स्ट्रिंग तब एक्सेल कॉलम अक्षरों और स्तंभ श्रेणियों (जैसे "ए: ई" या "ए, सी, ई: 2") की अल्पविराम से अलग सूची इंगित करती है। दोनों पक्षों में रंग सम्मिलित हैं।

निचोड़ : बूलियन, डिफ़ॉल्ट गलत

यदि पार्स किए गए डेटा में केवल एक कॉलम है, तो एक श्रृंखला लौटाएं

dtype : टाइप नाम या कॉलम का ताना -> प्रकार, डिफ़ॉल्ट कोई नहीं

डेटा या स्तंभों के लिए डेटा प्रकार। उदा {'a': np.float64, 'b': np.int32} Excel में संग्रहीत डेटा को संरक्षित करने के लिए object का उपयोग करें और dtype की व्याख्या न करें। यदि कन्वर्टर्स निर्दिष्ट किए जाते हैं, तो उन्हें dtype रूपांतरण का INSTEAD लागू किया जाएगा।

संस्करण में नया 0.20.0।

इंजन: स्ट्रिंग, डिफ़ॉल्ट कोई नहीं

यदि io कोई बफर या पथ नहीं है, तो इसे io की पहचान करने के लिए सेट किया जाना चाहिए। स्वीकार्य मूल्य कोई नहीं या xlrd हैं

कन्वर्टर्स : तानाशाह, डिफ़ॉल्ट कोई नहीं

कुछ स्तंभों में मूल्यों को परिवर्तित करने के लिए कार्यों का निर्णय। कुंजी या तो पूर्णांक या स्तंभ लेबल हो सकते हैं, मान ऐसे कार्य हैं जो एक इनपुट तर्क, एक्सेल सेल सामग्री लेते हैं, और रूपांतरित सामग्री को वापस करते हैं।

true_values : सूची, डिफ़ॉल्ट कोई नहीं

मूल्यों को सत्य मानें

संस्करण में नया 0.19.0।

false_values : सूची, डिफ़ॉल्ट कोई नहीं

मूल्यों को गलत मानना

संस्करण में नया 0.19.0।

स्किपरो : सूची-जैसा

शुरुआत में छोड़ने के लिए पंक्तियाँ (0-अनुक्रमित)

nrows : int, default कोई नहीं

पंक्तियों की संख्या

संस्करण में नया 0.23.0।

na_values : स्केलर, str, सूची-जैसा, या तानाशाही, डिफ़ॉल्ट कोई नहीं

अतिरिक्त तार NA / NaN के रूप में पहचानने के लिए। यदि तानाशाही पारित, विशिष्ट प्रति-स्तंभ NA मान। डिफ़ॉल्ट रूप से निम्नलिखित मानों की व्याख्या NaN: '', '# N / A', '# N / AN / A', '#NA', '-1'। # IND ',' -1। # QNAN 'के रूप में की जाती है। '-NNN', '-nan', '1. # IND', '1. # QNAN', 'N / A', 'NA', 'NULL', 'NaN', 'n / a', 'nan ', 'शून्य'।

Keep_default_na : बूल, डिफ़ॉल्ट सही

यदि na_values ​​निर्दिष्ट हैं और Keep_default_na गलत है तो डिफ़ॉल्ट NaN मान ओवरराइड हो जाते हैं, अन्यथा वे इसके लिए अपील करते हैं।

क्रिया : बूलियन, डिफ़ॉल्ट गलत

गैर-संख्यात्मक कॉलम में रखे गए एनए मानों की संख्या

हजारों : str, डिफ़ॉल्ट कोई नहीं

स्ट्रिंग स्तंभों को संख्यात्मक में पार्स करने के लिए हजारों विभाजक। ध्यान दें कि यह पैरामीटर केवल Excel में TEXT के रूप में संग्रहीत स्तंभों के लिए आवश्यक है, कोई भी संख्यात्मक कॉलम प्रदर्शन प्रारूप की परवाह किए बिना स्वचालित रूप से पार्स हो जाएगा।

टिप्पणी : str, डिफ़ॉल्ट कोई नहीं

टिप्पणियाँ शेष रेखा से बाहर हैं। इनपुट फ़ाइल में टिप्पणियों को इंगित करने के लिए इस तर्क के लिए एक चरित्र या वर्ण पास करें। टिप्पणी स्ट्रिंग और वर्तमान पंक्ति के अंत के बीच के किसी भी डेटा को अनदेखा किया जाता है।

Skip_footer : int, default 0

संस्करण 0.23.0 के बाद से पदावनत: इसके बजाय skipfooter में पास।

स्किपफूटर : इंट, डिफॉल्ट 0

स्किप करने के लिए अंत में पंक्तियाँ (0-अनुक्रमित)

Convert_float : बूलियन, डिफ़ॉल्ट सत्य

इंटीग्रल फ़्लोट्स को इंट (यानी, 1.0 -> 1) में बदलें। यदि गलत है, तो सभी संख्यात्मक डेटा फ्लोट के रूप में पढ़ा जाएगा: एक्सेल आंतरिक रूप से फ्लोट के रूप में सभी नंबरों को संग्रहीत करता है

यह दिखाता है:

पार्स किया गया : DataFrame या Dict of DataFrames

Excel फ़ाइल में दिए गए से DataFrame। डेटाफ़्रेम का एक डिक्ट वापस आने पर अधिक जानकारी के लिए sheet_name तर्क में नोट देखें।

उदाहरण

एक उदाहरण DataFrame एक स्थानीय फ़ाइल के लिए लिखा गया है

>>> df_out = pd.DataFrame([('string1', 1),
...                        ('string2', 2),
...                        ('string3', 3)],
...                       columns=['Name', 'Value'])
>>> df_out
      Name  Value
0  string1      1
1  string2      2
2  string3      3
>>> df_out.to_excel('tmp.xlsx')

फ़ाइल को स्ट्रिंग या एक खुली फ़ाइल ऑब्जेक्ट के रूप में फ़ाइल नाम का उपयोग करके पढ़ा जा सकता है:

>>> pd.read_excel('tmp.xlsx')
      Name  Value
0  string1      1
1  string2      2
2  string3      3
>>> pd.read_excel(open('tmp.xlsx','rb'))
      Name  Value
0  string1      1
1  string2      2
2  string3      3

सूचकांक और हेडर को index_col और header तर्कों के माध्यम से निर्दिष्ट किया जा सकता है

>>> pd.read_excel('tmp.xlsx', index_col=None, header=None)
     0        1      2
0  NaN     Name  Value
1  0.0  string1      1
2  1.0  string2      2
3  2.0  string3      3

स्तंभ प्रकार अनुमानित हैं लेकिन स्पष्ट रूप से निर्दिष्ट किए जा सकते हैं

>>> pd.read_excel('tmp.xlsx', dtype={'Name':str, 'Value':float})
      Name  Value
0  string1    1.0
1  string2    2.0
2  string3    3.0

सही, गलत और NA मान, और हजारों विभाजकों में चूक है, लेकिन स्पष्ट रूप से निर्दिष्ट किया जा सकता है। उन स्ट्रिंग्स की आपूर्ति करें जिन्हें आप स्ट्रिंग्स या स्ट्रिंग्स की सूची के रूप में चाहते हैं!

>>> pd.read_excel('tmp.xlsx',
...               na_values=['string1', 'string2'])
      Name  Value
0      NaN      1
1      NaN      2
2  string3      3

एक्सेल इनपुट फ़ाइल में टिप्पणी लाइनों को comment kwarg का उपयोग करके छोड़ दिया जा सकता है

>>> df = pd.DataFrame({'a': ['1', '#2'], 'b': ['2', '3']})
>>> df.to_excel('tmp.xlsx', index=False)
>>> pd.read_excel('tmp.xlsx')
    a  b
0   1  2
1  #2  3
>>> pd.read_excel('tmp.xlsx', comment='#')
   a  b
0  1  2