python - महत - मूल्य शिक्षा की प्रकृति




डेटाफ्रेम कॉलम में मूल्यों के सबसे आम संयोजन की गिनती (4)

मेरे पास निम्नलिखित रूप में DataFrame है:

ID Product
1   A
1   B
2   A 
3   A
3   C 
3   D 
4   A
4   B

मैं ID द्वारा समूहीकृत Product कॉलम से दो मूल्यों के सबसे आम संयोजन को गिनना चाहूंगा। तो इस उदाहरण के लिए अपेक्षित परिणाम होगा:

Combination Count
A-B          2
A-C          1
A-D          1
C-D          1

क्या यह आउटपुट पांडा के साथ संभव है?


आप itertools के साथ itertools से combinations उपयोग कर सकते हैं और apply

from itertools import combinations

def get_combs(x):
    return pd.DataFrame({'Combination': list(combinations(x.Product.values, 2))})
(df.groupby('ID').apply(get_combs)
 .reset_index(level=0)
 .groupby('Combination')
 .count()
)
             ID
Combination    
(A, B)        2
(A, C)        1
(A, D)        1
(C, D)        1

हम ID के भीतर merge कर सकते हैं और डुप्लिकेट मर्ज को फ़िल्टर कर सकते हैं (मेरा मानना ​​है कि आपके पास एक डिफ़ॉल्ट RangeIndex )। फिर हम क्रमबद्ध करना चाहते हैं ताकि समूहन क्रमबद्ध हो:

import pandas as pd
import numpy as np

df1 = df.reset_index()
df1 = df1.merge(df1, on='ID').query('index_x > index_y')

df1 = pd.DataFrame(np.sort(df1[['Product_x', 'Product_y']].to_numpy(), axis=1))
df1.groupby([*df1]).size()
0  1
A  B    2
   C    1
   D    1
C  D    1
dtype: int64

itertools.combinations फ़ंक्शन के साथ एक और चाल:

from itertools import combinations
import pandas as pd

test_df = ... # your df
counts_df = test_df.groupby('ID')['Product'].agg(lambda x: list(combinations(x, 2)))\
    .apply(pd.Series).stack().value_counts().to_frame()\
    .reset_index().rename(columns={'index': 'Combination', 0:'Count'})
print(counts_df)

उत्पादन:

  Combination  Count
0      (A, B)      2
1      (A, C)      1
2      (A, D)      1
3      (C, D)      1

itertools और Counter का उपयोग करना।

import itertools
from collections import Counter

agg_ = lambda x: tuple(itertools.combinations(x, 2))
product = list(itertools.chain(*df.groupby('ID').agg({'Product': lambda x: agg_(sorted(x))}).Product))
# You actually do not need to wrap product with list. The generator is ok
counts = Counter(product)

उत्पादन

Counter({('A', 'B'): 2, ('A', 'C'): 1, ('A', 'D'): 1, ('C', 'D'): 1})

डेटाफ्रेम प्राप्त करने के लिए आप निम्नलिखित कार्य भी कर सकते हैं

pd.DataFrame(list(counts.items()), columns=['combination', 'count'])

  combination  count
0      (A, B)      2
1      (A, C)      1
2      (A, D)      1
3      (C, D)      1




pandas