pandas 0.23 - 3. 10 Minutes to pandas

पंडों को 10 मिनट




pandas

पंडों को 10 मिनट

यह मुख्य रूप से नए उपयोगकर्ताओं के लिए तैयार पांडा के लिए एक संक्षिप्त परिचय है। आप Cookbook में अधिक जटिल व्यंजनों को देख सकते हैं।

कस्टमाइज़, हम निम्नानुसार आयात करते हैं:

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: import matplotlib.pyplot as plt

वस्तु निर्माण

डेटा संरचना परिचय अनुभाग देखें।

मानों की सूची पास करके एक Series बनाना, पांडा को एक डिफ़ॉल्ट पूर्णांक सूचकांक बनाने देता है:

In [4]: s = pd.Series([1,3,5,np.nan,6,8])

In [5]: s
Out[5]: 
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

DataFrame इंडेक्स और लेबल स्तंभों के साथ, एक NumPy सरणी पास करके एक DataFrame बनाना:

In [6]: dates = pd.date_range('20130101', periods=6)

In [7]: dates
Out[7]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

In [9]: df
Out[9]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

ऑब्जेक्ट्स का एक DataFrame पारित करके एक DataFrame बनाना, DataFrame श्रृंखला-जैसे में बदला जा सकता है।

In [10]: df2 = pd.DataFrame({ 'A' : 1.,
   ....:                      'B' : pd.Timestamp('20130102'),
   ....:                      'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
   ....:                      'D' : np.array([3] * 4,dtype='int32'),
   ....:                      'E' : pd.Categorical(["test","train","test","train"]),
   ....:                      'F' : 'foo' })
   ....: 

In [11]: df2
Out[11]: 
     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo

परिणामी DataFrame स्तंभों में अलग-अलग dtypes

In [12]: df2.dtypes
Out[12]: 
A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

यदि आप IPython का उपयोग कर रहे हैं, तो कॉलम नामों (साथ ही सार्वजनिक विशेषताओं) के लिए टैब पूर्णता स्वचालित रूप से सक्षम है। यहां उन विशेषताओं का एक सबसेट है जो पूरा हो जाएगा:

In [13]: df2.<TAB>
df2.A                  df2.bool
df2.abs                df2.boxplot
df2.add                df2.C
df2.add_prefix         df2.clip
df2.add_suffix         df2.clip_lower
df2.align              df2.clip_upper
df2.all                df2.columns
df2.any                df2.combine
df2.append             df2.combine_first
df2.apply              df2.compound
df2.applymap           df2.consolidate
df2.D

जैसा कि आप देख सकते हैं, कॉलम A , B , C और D स्वचालित रूप से टैब पूर्ण हो चुके हैं। E है ही; बाकी विशेषताओं को संक्षिप्तता के लिए छोटा कर दिया गया है।

डेटा देखना

मूल बातें अनुभाग देखें।

यहाँ फ्रेम के ऊपर और नीचे की पंक्तियों को देखने का तरीका बताया गया है:

In [14]: df.head()
Out[14]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401

In [15]: df.tail(3)