pandas 0.23 - Series.str.split()

pandas.Series.str.split




pandas

pandas.Series.str.split

Series.str.split(pat=None, n=-1, expand=False) [source]

दिए गए विभाजक / परिसीमा के चारों ओर भाजित तार।

दिए गए पैटर्न के द्वारा कॉलर के मूल्यों में प्रत्येक स्ट्रिंग को विभाजित करें, NaN मूल्यों का प्रचार। str.split() बराबर।

पैरामीटर:

पैट : str, वैकल्पिक

पर विभाजित करने के लिए स्ट्रिंग या नियमित अभिव्यक्ति। यदि निर्दिष्ट नहीं है, तो व्हाट्सएप पर विभाजित करें।

n : int, डिफ़ॉल्ट -1 (सभी)

आउटपुट में विभाजन की संख्या को सीमित करता है। None , 0 और -1 को सभी स्प्लिट्स के रूप में व्याख्या किया जाएगा।

विस्तार : बूल, डिफ़ॉल्ट गलत

अलग-अलग स्तंभों में विभाजित तारों का विस्तार करें।

  • यदि True , तो DataFrame / MultiIndex का विस्तार आयामीता लौटाएं।
  • यदि False , तो श्रृंखला / सूचकांक लौटाएं, जिसमें तार की सूची होगी।
यह दिखाता है:

सीरीज, इंडेक्स, डेटाफ़्रेम या मल्टीइंडेक्स

मिलानकर्ता को तब तक टाइप expand=True जब तक कि expand=True न हो जाए expand=True (नोट्स देखें)।

यह भी देखें

str.split()
इस विधि का मानक पुस्तकालय संस्करण।
Series.str.get_dummies
डमी चर में प्रत्येक स्ट्रिंग को विभाजित करें।
Series.str.partition
विभाजक पर स्ट्रिंग विभाजित करें, पहले, विभाजक और घटकों के बाद वापस लौटाएं।

टिप्पणियाँ

n कीवर्ड की हैंडलिंग पाया विभाजन की संख्या पर निर्भर करता है:

  • यदि स्प्लिट्स> n पाया जाता है, तो पहले n स्प्लिट्स ही बनाएं
  • यदि स्प्लिट्स मिलते हैं <= n , तो सभी स्प्लिट्स बनाएं
  • यदि एक निश्चित पंक्ति के लिए पाया विभाजन की संख्या < n , तो expand=True करने के लिए None n को संलग्न न expand=True यदि expand=True

यदि expand=True , सीरीज और इंडेक्स कॉलर्स का उपयोग करके क्रमशः DataFrame और MultiIndex ऑब्जेक्ट लौटाते हैं।

उदाहरण

>>> s = pd.Series(["this is good text", "but this is even better"])

डिफ़ॉल्ट रूप से, विभाजन समान आकार की एक वस्तु लौटाएगा जिसमें विभाजित तत्वों से युक्त सूची होगी

>>> s.str.split()
0           [this, is, good, text]
1    [but, this, is, even, better]
dtype: object
>>> s.str.split("random")
0          [this is good text]
1    [but this is even better]
dtype: object

expand=True का उपयोग करते समय, विभाजित तत्व अलग-अलग स्तंभों में विस्तारित होंगे।

सीरीज ऑब्जेक्ट के लिए, आउटपुट रिटर्न टाइप DataFrame है।

>>> s.str.split(expand=True)
      0     1     2     3       4
0  this    is  good  text    None
1   but  this    is  even  better
>>> s.str.split(" is ", expand=True)
          0            1
0      this    good text
1  but this  even better

इंडेक्स ऑब्जेक्ट के लिए, आउटपुट रिटर्न टाइप मल्टीएंडेक्स है।

>>> i = pd.Index(["ba 100 001", "ba 101 002", "ba 102 003"])
>>> i.str.split(expand=True)
MultiIndex(levels=[['ba'], ['100', '101', '102'], ['001', '002', '003']],
       labels=[[0, 0, 0], [0, 1, 2], [0, 1, 2]])

पैरामीटर n का उपयोग आउटपुट में विभाजन की संख्या को सीमित करने के लिए किया जा सकता है।

>>> s.str.split("is", n=1)
0          [th,  is good text]
1    [but th,  is even better]
dtype: object
>>> s.str.split("is", n=1, expand=True)
        0                1
0      th     is good text
1  but th   is even better

यदि NaN मौजूद है, तो यह विभाजन के दौरान पूरे कॉलम में प्रचारित होता है।

>>> s = pd.Series(["this is good text", "but this is even better", np.nan])
>>> s.str.split(n=3, expand=True)
      0     1     2            3
0  this    is  good         text
1   but  this    is  even better
2   NaN   NaN   NaN          NaN