pandas 0.23 - DataFrameGroupBy.cov

pandas.core.groupby.DataFrameGroupBy.cov




pandas

pandas.core.groupby.DataFrameGroupBy.cov

DataFrameGroupBy.cov

एनए / अशक्त मूल्यों को छोड़कर, स्तंभों की जोड़ीदार कोवरियन की गणना करें।

एक DataFrame की श्रृंखला के बीच युग्मक सहसंयोजक की गणना करें। लौटा डेटा फ्रेम DataFrame के कॉलम का सहसंयोजक मैट्रिक्स है।

एनए और शून्य मान दोनों को गणना से स्वचालित रूप से बाहर रखा गया है। (लापता मूल्यों से पूर्वाग्रह के बारे में नीचे नोट देखें।) प्रत्येक मूल्य के लिए टिप्पणियों की न्यूनतम संख्या के लिए एक सीमा निर्धारित की जा सकती है। इस सीमा से नीचे की टिप्पणियों की तुलना NaN रूप में की जाएगी।

इस पद्धति का उपयोग आमतौर पर समय श्रृंखला डेटा के विश्लेषण के लिए किया जाता है ताकि समय भर में विभिन्न उपायों के बीच संबंधों को समझा जा सके।

पैरामीटर:

min_periods : int, वैकल्पिक

मान्य परिणाम के लिए कॉलम की प्रति जोड़ी आवश्यक टिप्पणियों की न्यूनतम संख्या।

यह दिखाता है:

डेटा ढांचा

DataFrame की श्रृंखला का सहसंयोजक मैट्रिक्स।

यह भी देखें

pandas.Series.cov
एक और श्रृंखला के साथ गणना करने योग्य
pandas.core.window.EWM.cov
घातीय भारित नमूना सहसंयोजक
pandas.core.window.Expanding.cov
विस्तार नमूना covariance
pandas.core.window.Rolling.cov
रोलिंग नमूना सहसंयोजक

टिप्पणियाँ

डेटाफ़्रेम समय श्रृंखला के सहसंयोजक मैट्रिक्स लौटाता है। एन -1 से सहसंयोजक सामान्यीकृत होता है।

DataFrames के लिए, जिनके पास श्रृंखला है जो लापता डेटा है (यह मानते हुए कि डेटा यादृच्छिक रूप से गायब है ) लौटे हुए सहसंयोजक मैट्रिक्स सदस्य श्रृंखला के बीच विचरण और सहसंयोजक का एक निष्पक्ष अनुमान होगा।

हालांकि, कई अनुप्रयोगों के लिए यह अनुमान स्वीकार्य नहीं हो सकता है क्योंकि अनुमान सहसंयोजक मैट्रिक्स सकारात्मक अर्ध-निश्चित होने की गारंटी नहीं है। इससे पूर्ण मूल्यों वाले सहसंबंधों का अनुमान लगाया जा सकता है जो एक से अधिक हैं, और / या एक गैर-असंगत सहसंयोजक मैट्रिक्स हैं। अधिक विवरण के लिए सहसंयोजक matrices का अनुमान देखें।

उदाहरण

>>> df = pd.DataFrame([(1, 2), (0, 3), (2, 0), (1, 1)],
...                   columns=['dogs', 'cats'])
>>> df.cov()
          dogs      cats
dogs  0.666667 -1.000000
cats -1.000000  1.666667
>>> np.random.seed(42)
>>> df = pd.DataFrame(np.random.randn(1000, 5),
...                   columns=['a', 'b', 'c', 'd', 'e'])
>>> df.cov()
          a         b         c         d         e
a  0.998438 -0.020161  0.059277 -0.008943  0.014144
b -0.020161  1.059352 -0.008543 -0.024738  0.009826
c  0.059277 -0.008543  1.010670 -0.001486 -0.000271
d -0.008943 -0.024738 -0.001486  0.921297 -0.013692
e  0.014144  0.009826 -0.000271 -0.013692  0.977795

अवधि की न्यूनतम संख्या

यह विधि एक वैकल्पिक min_periods कीवर्ड का भी समर्थन करती है जो एक मान्य परिणाम के लिए प्रत्येक कॉलम जोड़ी के लिए गैर-एनए टिप्पणियों की आवश्यक न्यूनतम संख्या निर्दिष्ट करता है:

>>> np.random.seed(42)
>>> df = pd.DataFrame(np.random.randn(20, 3),
...                   columns=['a', 'b', 'c'])
>>> df.loc[df.index[:5], 'a'] = np.nan
>>> df.loc[df.index[5:10], 'b'] = np.nan
>>> df.cov(min_periods=12)
          a         b         c
a  0.316741       NaN -0.150812
b       NaN  1.248003  0.191417
c -0.150812  0.191417  0.895202