pandas 0.23 - pandas.read_html()

pandas.read_html




pandas

pandas.read_html

pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True) [source]

HTML टेबल को DataFrame ऑब्जेक्ट्स की list में पढ़ें।

पैरामीटर:

io : str या फाइल-लाइक

एक URL, एक फ़ाइल जैसी वस्तु, या HTML वाला एक कच्चा स्ट्रिंग। ध्यान दें कि lxml केवल http, ftp और फ़ाइल url प्रोटोकॉल को स्वीकार करता है। यदि आपके पास एक URL है जो 'https' शुरू होता है तो आप 's' को हटाने का प्रयास कर सकते हैं।

मैच : str या संकलित नियमित अभिव्यक्ति, वैकल्पिक

इस रेगेक्स या स्ट्रिंग से मेल खाने वाले टेबलों के सेट को वापस कर दिया जाएगा। जब तक एचटीएमएल अत्यंत सरल न हो जाए, तब तक आपको संभवतः एक गैर-रिक्त स्ट्रिंग पास करने की आवश्यकता होगी। '+।' (किसी भी गैर-रिक्त स्ट्रिंग से मिलान) के लिए डिफ़ॉल्ट। डिफ़ॉल्ट मान किसी पृष्ठ पर निहित सभी तालिकाओं को लौटा देगा। इस मान को एक नियमित अभिव्यक्ति में बदल दिया जाता है ताकि सुंदर सूप और lxml के बीच लगातार व्यवहार हो।

स्वाद : तार या कोई नहीं, तार के कंटेनर

उपयोग करने के लिए पार्सिंग इंजन। 'bs4' और 'html5lib' एक-दूसरे के पर्याय हैं, ये दोनों पीछे की संगतता के लिए हैं। डिफ़ॉल्ट None पार्स करने के लिए lxml का उपयोग करने की कोशिश करता है और यदि वह विफल रहता है तो यह html5lib + html5lib पर वापस गिरता है।

शीर्ष लेख : int या सूची-जैसा या कोई नहीं, वैकल्पिक

कॉलम हेडर बनाने के लिए उपयोग करने के लिए पंक्ति (या एक MultiIndex लिए पंक्तियों की सूची)।

index_col : int या list-like या कोई नहीं, वैकल्पिक

सूचकांक बनाने के लिए उपयोग करने के लिए स्तंभ (या स्तंभों की सूची)।

स्किप : इंट या लिस्ट-जैसे या स्लाइस या कोई नहीं, वैकल्पिक

0-आधारित। स्तंभ पूर्णांक को पार्स करने के बाद छोड़ने के लिए पंक्तियों की संख्या। यदि पूर्णांक या एक स्लाइस का अनुक्रम दिया जाता है, तो उस अनुक्रम द्वारा अनुक्रमित पंक्तियों को छोड़ देगा। ध्यान दें कि एक एकल तत्व अनुक्रम का अर्थ है 'एनएच पंक्ति को छोड़ दें' जबकि पूर्णांक का अर्थ है 'एन पंक्तियों को छोड़ दें'।

attrs : तानाशाही या कोई नहीं, वैकल्पिक

यह उन विशेषताओं का एक शब्दकोश है जिसे आप HTML में तालिका की पहचान करने के लिए उपयोग कर सकते हैं। Lxml या ब्यूटीफुल सूप के पास जाने से पहले इनकी वैधता की जाँच नहीं की जाती है। हालाँकि, इन विशेषताओं को सही ढंग से काम करने के लिए मान्य HTML तालिका विशेषताएँ होनी चाहिए। उदाहरण के लिए,

attrs = {'id': 'table'}

एक वैध विशेषता शब्दकोश है क्योंकि 'आईडी' HTML टैग विशेषता इस दस्तावेज़ के अनुसार किसी भी HTML टैग के लिए एक वैध HTML विशेषता है।

attrs = {'asdf': 'table'}

एक वैध विशेषता शब्दकोश नहीं है क्योंकि 'asdf' एक मान्य HTML विशेषता नहीं है भले ही यह एक वैध XML विशेषता हो। मान्य HTML 4.01 तालिका विशेषताएँ here पाई जा सकती here । HTML 5 युक्ति का एक कार्यशील प्रारूप here पाया जा सकता here । इसमें आधुनिक वेब के लिए तालिका विशेषताओं पर नवीनतम जानकारी शामिल है।

parse_dates : बूल, वैकल्पिक

अधिक विवरण के लिए read_csv() देखें।

tupleize_cols : बूल, वैकल्पिक

यदि False बहु-शीर्ष पंक्तियों को MultiIndex में पार्स करने का प्रयास MultiIndex , अन्यथा कच्चे MultiIndex False करने के लिए चूक।

संस्करण 0.21.0 के बाद से पदावनत: इस तर्क को हटा दिया जाएगा और हमेशा मल्टीएंडेक्स में परिवर्तित हो जाएगा

हजारों : str, वैकल्पिक

हजारों पार्स करने के लिए उपयोग करने के लिए विभाजक। ',' लिए चूक।

एन्कोडिंग : str या कोई नहीं, वैकल्पिक

एन्कोडिंग का उपयोग वेब पेज को डीकोड करने के लिए किया जाता है। None से None चूक None `` None नहीं` `पिछले एन्कोडिंग व्यवहार को संरक्षित करता है, जो अंतर्निहित पार्सर लाइब्रेरी पर निर्भर करता है (उदाहरण के लिए, पार्सर लाइब्रेरी दस्तावेज़ द्वारा प्रदान की गई एन्कोडिंग का उपयोग करने की कोशिश करेगा)।

दशमलव : str, डिफ़ॉल्ट '।'

दशमलव बिंदु के रूप में पहचान करने के लिए चरित्र (उदाहरण के लिए ',' यूरोपीय डेटा के लिए)।

संस्करण में नया 0.19.0।

कन्वर्टर्स : तानाशाह, डिफ़ॉल्ट कोई नहीं

कुछ स्तंभों में मूल्यों को परिवर्तित करने के लिए कार्यों का निर्णय। कुंजी या तो पूर्णांक या स्तंभ लेबल हो सकते हैं, मान ऐसे कार्य हैं जो एक इनपुट तर्क, सेल (स्तंभ नहीं) सामग्री लेते हैं, और रूपांतरित सामग्री को वापस करते हैं।

संस्करण में नया 0.19.0।

na_values : iterable , default कोई नहीं

कस्टम NA मान

संस्करण में नया 0.19.0।

Keep_default_na : बूल, डिफ़ॉल्ट सही

यदि na_values ​​निर्दिष्ट हैं और Keep_default_na गलत है तो डिफ़ॉल्ट NaN मान ओवरराइड हो जाता है, अन्यथा इसे लागू नहीं किया जा सकता है

संस्करण में नया 0.19.0।

display_only : बूल, डिफ़ॉल्ट सही

क्या "प्रदर्शन: कोई नहीं" वाले तत्वों को पार्स किया जाना चाहिए

संस्करण में नया 0.23.0।

यह दिखाता है:
dfs : list of DataFrames

यह भी देखें

read_csv()

टिप्पणियाँ

इस फ़ंक्शन का उपयोग करने से पहले आपको HTML पार्सिंग पुस्तकालयों के बारे में गोचरों को पढ़ना चाहिए।

इस फ़ंक्शन को कॉल करने के बाद कुछ सफाई करने की अपेक्षा करें। उदाहरण के लिए, यदि आप header=0 तर्क पास करते हैं तो कॉलम नामों को मैन्युअल रूप से असाइन करने की आवश्यकता हो सकती है यदि कॉलम के नाम NaN में परिवर्तित हो जाते हैं। हम तालिका की संरचना के बारे में जितना संभव हो उतना कम मानने का प्रयास करते हैं और उपयोगकर्ता के लिए तालिका में निहित HTML की अज्ञातताओं को धक्का देते हैं।

यह फ़ंक्शन <table> प्रत्येक <tr> या <th> तत्वों और केवल <tr> और <th> पंक्तियों और <td> तत्वों के लिए खोज करता है। <td> अर्थ है "टेबल डेटा"।

इसी तरह read_csv() header तर्क लागू किया जाता है के बाद skiprows को लागू किया जाता है।

यह फ़ंक्शन हमेशा DataFrame सूची DataFrame या यह विफल हो जाएगा, उदाहरण के लिए, यह एक खाली सूची नहीं लौटाएगा।

उदाहरण

HTML तालिकाओं में पढ़ने के कुछ उदाहरणों के लिए डॉक्स के IO अनुभाग में read_html प्रलेखन देखें।