pandas 0.23 - pandas.read_table()

pandas.read_table




pandas

pandas.read_table

pandas.read_table(filepath_or_buffer, sep='\t', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None) [source]

DataFrame में सामान्य सीमांकित फ़ाइल पढ़ें

वैकल्पिक रूप से पुनरावृत्ति या फ़ाइल को विखंडू में तोड़ने का समर्थन करता है।

आईओ टूल्स के लिए ऑनलाइन डॉक्स में अतिरिक्त मदद मिल सकती है।

पैरामीटर:
filepath_or_buffer : str, pathlib.Path, py._path.local.LocalPath or any \

एक रीड () विधि के साथ ऑब्जेक्ट (जैसे फ़ाइल हैंडल या स्ट्रिंग)

स्ट्रिंग एक URL हो सकता है। मान्य URL योजनाओं में http, ftp, s3 और फ़ाइल शामिल हैं। फ़ाइल URL के लिए, एक होस्ट अपेक्षित है। उदाहरण के लिए, एक स्थानीय फ़ाइल फ़ाइल हो सकती file://localhost/path/to/table.csv

sep : str, डिफ़ॉल्ट t (टैब-स्टॉप)

उपयोग करने के लिए परिसीमन। अगर कोई भी नहीं है, तो सी इंजन स्वचालित रूप से विभाजक का पता नहीं लगा सकता है, लेकिन पायथन पार्सिंग इंजन कर सकता है, जिसका अर्थ है कि बाद का उपयोग किया जाएगा और स्वचालित रूप से पायथन के csv.Sniffer स्निफर उपकरण, csv.Sniffer द्वारा विभाजक का पता csv.Sniffer । इसके अतिरिक्त, 1 वर्ण से अधिक के विभाजक और '\s+' से भिन्न को नियमित अभिव्यक्ति के रूप में व्याख्या किया जाएगा और पायथन पार्सिंग इंजन के उपयोग को भी बाध्य करेगा। ध्यान दें कि regex delimiters उद्धृत डेटा की अनदेखी करने के लिए प्रवण हैं। Regex उदाहरण: '\r\t'

सीमांकक : str, डिफ़ॉल्ट None

सेप के लिए वैकल्पिक तर्क नाम।

delim_whitespace : बूलियन, डिफ़ॉल्ट गलत

निर्दिष्ट करता है कि व्हाट्सएप या नहीं (उदाहरण के लिए ' ' या '\t' ) का उपयोग सेप के रूप में किया जाएगा। sep='\s+' सेट करने के बराबर। यदि यह विकल्प True पर सेट है, तो delimiter पैरामीटर के लिए कुछ भी पारित नहीं होना चाहिए।

संस्करण 0.18.1 में नया: पायथन पार्सर के लिए समर्थन।

शीर्ष लेख : इंट या सूची की सूची, डिफ़ॉल्ट 'अनुमान'

स्तंभ नामों और डेटा की शुरुआत के रूप में उपयोग करने के लिए पंक्ति संख्या। डिफ़ॉल्ट व्यवहार स्तंभ नामों को अवरूद्ध करने के लिए है: यदि कोई नाम पारित नहीं किया जाता है तो व्यवहार header=0 समान है और स्तंभ नाम फ़ाइल की पहली पंक्ति से अनुमानित हैं, यदि स्तंभ नाम स्पष्ट रूप से दिए गए हैं तो व्यवहार header=None समान है header=None । मौजूदा नामों को बदलने में सक्षम होने के लिए स्पष्ट रूप से header=0 पास करें। शीर्षलेख उन पूर्णांकों की सूची हो सकती है जो स्तंभों पर एक बहु-सूचकांक के लिए पंक्ति स्थानों को निर्दिष्ट करते हैं जैसे [0,1,3]। निर्दिष्ट की गई पंक्तियों को रोकना छोड़ दिया जाएगा (जैसे इस उदाहरण में 2 छोड़ दिया गया है)। ध्यान दें कि यह पैरामीटर टिप्पणी की गई लाइनों और खाली लाइनों को अनदेखा करता है यदि skip_blank_lines=True , तो हेडर = 0 फ़ाइल की पहली पंक्ति के बजाय डेटा की पहली पंक्ति को दर्शाता है।

नाम : सरणी की तरह, डिफ़ॉल्ट कोई नहीं

उपयोग करने के लिए कॉलम नामों की सूची। यदि फ़ाइल में कोई हेडर पंक्ति नहीं है, तो आपको स्पष्ट रूप से हेडर = कोई नहीं पास करना चाहिए। इस सूची में डुप्लिकेट को जारी करने के लिए एक UserWarning का कारण होगा।

index_col : int या अनुक्रम या गलत, डिफ़ॉल्ट कोई नहीं

DataFrame की पंक्ति लेबल के रूप में उपयोग करने के लिए कॉलम। यदि कोई अनुक्रम दिया जाता है, तो एक मल्टीइन्डेक्स का उपयोग किया जाता है। यदि आपके पास प्रत्येक पंक्ति के अंत में सीमांकक के साथ एक विकृत फ़ाइल है, तो आप इंडेक्स_col = गलत पर विचार कर सकते हैं पांडा को _not_ को इंडेक्स (पंक्ति नाम) के रूप में पहले स्तंभ का उपयोग करने के लिए

usecols : सूची-जैसे या कॉल करने योग्य, डिफ़ॉल्ट कोई नहीं

स्तंभों का सबसेट वापस करें। यदि सूची की तरह, सभी तत्वों को या तो स्थितीय होना चाहिए (यानी दस्तावेज़ स्तंभों में पूर्णांक सूचक) या तार जो कि नाम से उपयोगकर्ता द्वारा प्रदान किए गए स्तंभ नामों के अनुरूप हैं या दस्तावेज़ हेडर पंक्ति (ओं) से निकले हैं। उदाहरण के लिए, एक मान्य सूची-जैसे usecols पैरामीटर [0, 1, 2] या ['foo', 'bar', 'baz'] होगा। तत्व आदेश की उपेक्षा की जाती है, इसलिए usecols=[0, 1] [1, 0] । तत्व आदेश संरक्षित data साथ डेटाफ्रेम को तुरंत करने के लिए pd.read_csv(data, usecols=['foo', 'bar'])[['foo', 'bar']] में कॉलम ['foo', 'bar'] आदेश या pd.read_csv(data, usecols=['foo', 'bar'])[['bar', 'foo']] लिए ['bar', 'foo'] आदेश।

यदि कॉल करने योग्य है, तो कॉल करने योग्य फ़ंक्शन का मूल्यांकन कॉलम नामों के खिलाफ किया जाएगा, उन नामों को लौटाया जाएगा जहां कॉल करने योग्य फ़ंक्शन True का मूल्यांकन करता है। वैध lambda x: x.upper() in ['AAA', 'BBB', 'DDD'] योग्य तर्क का एक उदाहरण lambda x: x.upper() in ['AAA', 'BBB', 'DDD'] । इस पैरामीटर के उपयोग से बहुत अधिक पार्सिंग समय और कम मेमोरी का उपयोग होता है।

निचोड़ : बूलियन, डिफ़ॉल्ट गलत

यदि पार्स किए गए डेटा में केवल एक कॉलम है, तो एक श्रृंखला लौटाएं

उपसर्ग : str, डिफ़ॉल्ट कोई नहीं

स्तंभ संख्याओं में जोड़ने के लिए उपसर्ग जब कोई हेडर नहीं, उदाहरण के लिए X0, X1,…

mangle_dupe_cols : बूलियन, डिफ़ॉल्ट सत्य

डुप्लिकेट कॉलम को 'X' ... 'X' के बजाय 'X', 'X.1', 'X.N' के रूप में निर्दिष्ट किया जाएगा। यदि कॉलम में डुप्लिकेट नाम हैं, तो गलत तरीके से पास होने से डेटा ओवरराइट हो जाएगा।

dtype : टाइप नाम या कॉलम का ताना -> प्रकार, डिफ़ॉल्ट कोई नहीं

डेटा या स्तंभों के लिए डेटा प्रकार। Eg {'a': np.float64, 'b': np.int32} na_values को संरक्षित करने और व्याख्या नहीं करने के लिए उपयुक्त na_values सेटिंग्स के साथ str या object उपयोग करें। यदि कन्वर्टर्स निर्दिष्ट किए जाते हैं, तो उन्हें dtype रूपांतरण का INSTEAD लागू किया जाएगा।

इंजन : {'c', 'python'}, वैकल्पिक

उपयोग करने के लिए पार्सर इंजन। सी इंजन तेज़ है जबकि पायथन इंजन वर्तमान में अधिक फीचर-पूर्ण है।

कन्वर्टर्स : तानाशाह, डिफ़ॉल्ट कोई नहीं

कुछ स्तंभों में मूल्यों को परिवर्तित करने के लिए कार्यों का निर्णय। कुंजी या तो पूर्णांक या स्तंभ लेबल हो सकते हैं

true_values : सूची, डिफ़ॉल्ट कोई नहीं

मूल्यों को सत्य मानें

false_values : सूची, डिफ़ॉल्ट कोई नहीं

मूल्यों को गलत मानना

स्किपिनिटिशियलस्पेस : बूलियन, डिफ़ॉल्ट गलत

सीमांकक के बाद रिक्त स्थान छोड़ें।

स्किपरो : सूची-जैसा या पूर्णांक या कॉल करने योग्य, डिफ़ॉल्ट कोई नहीं

फ़ाइल को शुरू करने के लिए (0-अनुक्रमित) को छोड़ना या (int) करने के लिए लाइनों की संख्या।

यदि कॉल करने योग्य है, तो पंक्ति सूचकांकों के खिलाफ कॉल करने योग्य फ़ंक्शन का मूल्यांकन किया जाएगा, यह सत्य है कि पंक्ति को छोड़ दिया जाना चाहिए और अन्यथा गलत होना चाहिए। वैध कॉल करने योग्य तर्क का एक उदाहरण lambda x: x in [0, 2]

स्किपफूटर : इंट, डिफॉल्ट 0

स्किप करने के लिए फ़ाइल के नीचे लाइनों की संख्या (इंजन के साथ असमर्थित = 'c')

nrows : int, default कोई नहीं

पढ़ने के लिए फ़ाइल की पंक्तियों की संख्या। बड़ी फ़ाइलों के टुकड़ों को पढ़ने के लिए उपयोगी है

na_values : स्केलर, str, सूची-जैसा, या तानाशाही, डिफ़ॉल्ट कोई नहीं

अतिरिक्त तार NA / NaN के रूप में पहचानने के लिए। यदि तानाशाही पारित, विशिष्ट प्रति-स्तंभ NA मान। डिफ़ॉल्ट रूप से निम्नलिखित मानों की व्याख्या NaN: '', '# N / A', '# N / AN / A', '#NA', '-1'। # IND ',' -1। # QNAN 'के रूप में की जाती है। '-NNN', '-nan', '1. # IND', '1. # QNAN', 'N / A', 'NA', 'NULL', 'NaN', 'n / a', 'nan ', 'शून्य'।

Keep_default_na : बूल, डिफ़ॉल्ट सही

डेटा पार्स करते समय डिफ़ॉल्ट NaN मान शामिल करने या न करने के लिए। इस पर निर्भर करता है कि क्या na_values पास हुआ है, व्यवहार इस प्रकार है:

  • यदि keep_default_na सत्य है, और na_values निर्दिष्ट हैं, तो na_values को पार्सिंग के लिए उपयोग किए जाने वाले डिफ़ॉल्ट NaN मानों में जोड़ा जाता है।
  • यदि keep_default_na सत्य है, और na_values निर्दिष्ट नहीं हैं, तो केवल डिफ़ॉल्ट NaN मानों को पार्स करने के लिए उपयोग किया जाता है।
  • यदि keep_default_na गलत है, और na_values निर्दिष्ट हैं, तो केवल NaN मान निर्दिष्ट किए गए na_values को पार्स करने के लिए उपयोग किया जाता है।
  • यदि keep_default_na गलत है, और na_values निर्दिष्ट नहीं हैं, तो किसी भी तार को NaN के रूप में पार्स नहीं किया जाएगा।

ध्यान दें कि यदि na_filter को False के रूप में पास किया जाता है, तो keep_default_na और na_values मापदंडों को अनदेखा किया जाएगा।

na_filter : बूलियन, डिफ़ॉल्ट सत्य

लापता मान मार्कर (रिक्त स्ट्रिंग और na_values ​​के मूल्य) का पता लगाएं। बिना किसी NAs के डेटा में, na_filter = गलत पास करने से बड़ी फ़ाइल पढ़ने के प्रदर्शन में सुधार हो सकता है

क्रिया : बूलियन, डिफ़ॉल्ट गलत

गैर-संख्यात्मक कॉलम में रखे गए एनए मानों की संख्या

Skip_blank_lines : बूलियन, डिफ़ॉल्ट सत्य

यदि सही है, तो NaN मानों की व्याख्या करने के बजाय रिक्त लाइनों को छोड़ें

parse_dates : बूलियन या सूची या नामों की सूची या सूचियों की सूची या तानाशाही, डिफ़ॉल्ट गलत

  • बूलियन। यदि ट्रू -> इंडेक्स को पार्स करने का प्रयास करें।
  • स्याही या नामों की सूची। जैसे अगर [1, 2, 3] -> पार्सिंग कॉलम 1, 2, 3 को एक अलग डेट कॉलम के रूप में देखें।
  • सूचियों की सूची। जैसे अगर [[1, 3]] -> कॉलम 1 और 3 को संयोजित करें और एक ही तारीख कॉलम के रूप में पार्स करें।
  • तानाशाह, उदा {'फू': [1, 3]} -> पार्स कॉलम 1, 3 तारीख के रूप में और कॉल परिणाम 'फू'

यदि किसी स्तंभ या अनुक्रमणिका में कोई अप्राप्य दिनांक होती है, तो संपूर्ण स्तंभ या अनुक्रमणिका को ऑब्जेक्ट डेटा प्रकार के रूप में अन-लौटाया जाएगा। गैर-मानक pd.to_datetime पार्सिंग के लिए, pd.to_datetime बाद pd.read_csv उपयोग करें

नोट: iso8601-स्वरूपित दिनांक के लिए एक तेज़-पथ मौजूद है।

infer_datetime_format : बूलियन, डिफ़ॉल्ट गलत

यदि True और parse_dates सक्षम है, तो parse_dates में parse_dates स्ट्रिंग्स के प्रारूप का अनुमान लगाने का प्रयास करेंगे, और यदि यह अनुमान लगाया जा सकता है, तो उन्हें पार्स करने की एक तेज़ विधि पर स्विच करें। कुछ मामलों में यह पार्सिंग गति 5-10x तक बढ़ा सकता है।

Keep_date_col : बूलियन, डिफ़ॉल्ट गलत

यदि True और parse_dates कई कॉलमों को parse_dates हैं तो मूल कॉलम रखें।

date_parser : फ़ंक्शन, डिफ़ॉल्ट कोई नहीं

डेटाइम उदाहरणों की एक सरणी में स्ट्रिंग स्तंभों के अनुक्रम को परिवर्तित करने के लिए उपयोग करने का कार्य। डिफ़ॉल्ट रूपांतरण करने के लिए dateutil.parser.parser का उपयोग करता है। पंडों ने date_parser तीन अलग-अलग तरीकों से कॉल करने की कोशिश की, अगर कोई अपवाद होता है, तो अगले को आगे बढ़ाना: 1) एक या एक से अधिक सरणियों ( parse_dates द्वारा परिभाषित) को तर्क के रूप में पास करें; 2) समवर्ती (पंक्ति-वार) parse_dates द्वारा परिभाषित कॉलम से स्ट्रिंग मानों को एक एकल सरणी में parse_dates और इसे पास करें; और 3) एक या अधिक स्ट्रिंग्स ( parse_dates द्वारा परिभाषित कॉलम के parse_dates ) का उपयोग करके प्रत्येक पंक्ति के लिए date_parser एक बार कॉल करें।

दिन का समय : बूलियन, डिफ़ॉल्ट गलत

डीडी / एमएम प्रारूप तिथियां, अंतर्राष्ट्रीय और यूरोपीय प्रारूप

पुनरावृत्त : बूलियन, डिफ़ॉल्ट गलत

वापसी के लिए TextFileReader ऑब्जेक्ट लौटाएं या get_chunk() साथ विखंडू प्राप्त करें।

chunksize : int, default कोई नहीं

पुनरावृत्ति के लिए TextFileReader ऑब्जेक्ट लौटाएं। chunksize टूल्स डॉक्स को chunksize पर अधिक जानकारी के लिए देखें और chunksize

कम्प्रेशन : {'infert', 'gzip', 'bz2', 'zip', 'xz', कोई नहीं}, डिफ़ॉल्ट 'infer'

ऑन-द-डिस्क डेटा के ऑन-द-फ्लाई-डिकंप्रेसन के लिए। यदि 'अनुमान' और filepath_or_buffer पथ-जैसा है, तो निम्न एक्सटेंशन से संपीड़न का पता लगाएं: '.gz', '.bz2', '.zip', या '.xz' (अन्यथा कोई अपघटन नहीं)। यदि 'zip' का उपयोग किया जाता है, तो ज़िप फ़ाइल में पढ़ने के लिए केवल एक डेटा फ़ाइल होनी चाहिए। कोई भी अपघटन के लिए सेट नहीं है।

संस्करण 0.18.1 में नया: 'ज़िप' और 'xz' संपीड़न के लिए समर्थन।

हजारों : str, डिफ़ॉल्ट कोई नहीं

हजार का विभाजक

दशमलव : str, डिफ़ॉल्ट '।'

दशमलव बिंदु के रूप में पहचान करने के लिए चरित्र (उदाहरण के लिए ',' यूरोपीय डेटा के लिए)।

फ्लोट_प्रदर्शन : स्ट्रिंग, डिफ़ॉल्ट कोई नहीं

निर्दिष्ट करता है कि सी-इंजन को फ़्लोटिंग-पॉइंट मानों के लिए किस कनवर्टर का उपयोग करना चाहिए। विकल्प सामान्य कनवर्टर के लिए None हैं, high परिशुद्धता कनवर्टर के लिए उच्च, और गोल-यात्रा कनवर्टर के लिए round_trip

lineterminator : str (लंबाई 1), डिफ़ॉल्ट कोई नहीं

फ़ाइल को लाइनों में तोड़ने के लिए वर्ण। केवल सी पार्सर के साथ मान्य है।

quotechar : str (लंबाई 1), वैकल्पिक

चरित्र किसी उद्धृत वस्तु के आरंभ और अंत को निरूपित करता था। उद्धृत वस्तुओं में सीमांकक शामिल हो सकता है और इसे अनदेखा किया जाएगा।

उद्धृत : int या csv.QUOTE_ * उदाहरण, डिफ़ॉल्ट 0

नियंत्रण क्षेत्र को प्रति csv.QUOTE_* स्थिरांक के प्रति व्यवहार को उद्धृत करें। QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) या QUOTE_NONE (3) में से किसी एक का उपयोग करें।

doublequote : बूलियन, डिफ़ॉल्ट True

जब quotechar निर्दिष्ट किया जाता है और उद्धृत करना QUOTE_NONE नहीं है, तो इंगित करें कि किसी एकल quotechar तत्व के रूप में एक फ़ील्ड में दो लगातार quotechar तत्वों की व्याख्या करें या नहीं।

escapechar : str (लंबाई 1), डिफ़ॉल्ट कोई नहीं

QuotE_NONE उद्धृत करते समय सीमांकक से बचने के लिए उपयोग किया जाने वाला एक-वर्ण स्ट्रिंग।

टिप्पणी : str, डिफ़ॉल्ट कोई नहीं

रेखा के शेष संकेतक को पार्स नहीं किया जाना चाहिए। यदि एक लाइन की शुरुआत में पाया जाता है, तो लाइन को पूरी तरह से नजरअंदाज कर दिया जाएगा। यह पैरामीटर एकल वर्ण होना चाहिए। खाली लाइनों की तरह (जब तक skip_blank_lines=True ), पूरी तरह से टिप्पणी की गई लाइनों को पैरामीटर header द्वारा नजरअंदाज कर दिया जाता है लेकिन skiprows नहीं। उदाहरण के लिए, यदि comment='#' , header=0 साथ #empty\na,b,c\n1,2,3 कर रहा है, तो 'a, b, c' शीर्षक के रूप में माना जाएगा।

एन्कोडिंग : str, डिफ़ॉल्ट कोई नहीं

पढ़ने / लिखने के दौरान UTF के लिए उपयोग करने के लिए एन्कोडिंग (उदा। 'Utf-8')। पायथन मानक एनकोडिंग की सूची

बोली : str या csv.Dialect उदाहरण, डिफ़ॉल्ट कोई नहीं

यदि प्रदान किया जाता है, तो यह पैरामीटर निम्नलिखित मापदंडों के लिए मान (डिफ़ॉल्ट या नहीं) को ओवरराइड करेगा: delimiter , doublequote , escapechar , skipinitialspace , quotechar , और quoting । यदि मानों को ओवरराइड करना आवश्यक है, तो एक ParserWarning जारी किया जाएगा। अधिक विवरण के लिए csv.Dialect प्रलेखन देखें।

tupleize_cols : बूलियन, डिफ़ॉल्ट गलत

संस्करण 0.21.0 के बाद से पदावनत: इस तर्क को हटा दिया जाएगा और हमेशा मल्टीएंडेक्स में परिवर्तित हो जाएगा

स्तंभों पर tuples की सूची को छोड़ दें (डिफ़ॉल्ट रूप से स्तंभों पर MultiIndex में कनवर्ट करना है)

error_bad_lines : बूलियन, डिफ़ॉल्ट सत्य

डिफ़ॉल्ट रूप से बहुत सारे फ़ील्ड्स (जैसे बहुत कॉमा के साथ एक सीएसवी लाइन) लाइनों को उठाया जाएगा, और कोई भी डेटाफ़्रेम वापस नहीं किया जाएगा। यदि गलत है, तो ये "खराब लाइनें" डेटाफ़्रेम से वापस आ जाएंगी।

warn_bad_lines : बूलियन, डिफ़ॉल्ट सत्य

अगर error_bad_lines गलत है, और warn_bad_lines सत्य है, तो प्रत्येक "खराब लाइन" के लिए एक चेतावनी आउटपुट होगी।

low_memory : बूलियन, डिफ़ॉल्ट सत्य

आंतरिक रूप से फ़ाइल को चंक्स में संसाधित करें, जिसके परिणामस्वरूप पार्सिंग करते समय कम मेमोरी का उपयोग होता है, लेकिन संभवतः मिश्रित प्रकार का इंजेक्शन। कोई मिश्रित प्रकार सुनिश्चित करने के लिए या तो गलत सेट करें, या dtype पैरामीटर के साथ प्रकार निर्दिष्ट करें। ध्यान दें कि पूरी फाइल को एक ही DataFrame में पढ़ा जाता है, चाहे chunksize में डेटा वापस करने के लिए chunksize या iterator पैरामीटर का उपयोग करें। (केवल सी पार्सर के साथ मान्य)

मेमोरी_मैप : बूलियन, डिफ़ॉल्ट गलत

यदि filepath_or_buffer के लिए एक फ़ाइलपथ प्रदान किया जाता है, तो फ़ाइल ऑब्जेक्ट को सीधे मेमोरी पर मैप करें और वहां से सीधे डेटा एक्सेस करें। इस विकल्प का उपयोग करने से प्रदर्शन में सुधार हो सकता है क्योंकि अब कोई I / O ओवरहेड नहीं है।

यह दिखाता है:
result : DataFrame or TextParser