plyr 또는 dplyr in Python




python dplyr (2)

groupby 객체에 적용되는 agg 함수를 찾고 있다고 생각합니다.

문서에서 :

In [48]: grouped = df.groupby('A')

In [49]: grouped['C'].agg([np.sum, np.mean, np.std])
Out[49]: 
          sum      mean       std
A                                
bar  0.443469  0.147823  0.301765
foo  2.529056  0.505811  0.96

이것은 개념적인 질문 일 뿐이며, 나는 특별한 문제가 없습니다.

나는 데이터 분석을 위해 파이썬을 배우고있다. 그러나 나는 R에 대해 매우 잘 알고있다. R에 대한 훌륭한 점 중 하나는 plyr (물론 ggplot2)와 더 나은 dplyr이다. Pandas는 물론 split-apply도 있습니다. 그러나 RI에서는 (pplyr에서 약간 다른 dplyr에서 볼 수 있고, 이제는 객체 프로그래밍에서 표기법을 어떻게 모방했는지 확인할 수 있습니다)

   data %.% group_by(c(.....)) %.% summarise(new1 = ...., new2 = ...., ..... newn=....)

동시에 여러 요약 계산을 생성합니다.

파이썬에서는 어떻게합니까?

df[...].groupby(.....).sum() only sums columns, 

RI는 하나의 전화에 하나의 평균, 하나의 합계, 하나의 특수한 기능 등을 가질 수 있습니다

개별적으로 모든 작업을 수행하고 병합 할 수 있다는 것을 알았습니다. 파이썬을 사용하는 경우에는 괜찮습니다. 그러나 도구를 선택하면 코드를 입력하고 확인하고 검증 할 필요가 없습니다. 시각

또한 dplyr에서 돌연변환 문을 추가 할 수 있으므로 내게는 더 강력합니다. 그래서 판다 (pandas) 또는 파이썬 (python)에 대해 무엇을 놓치고 있습니까?

저의 목표는 배우는 것입니다. 저는 파이썬을 배우기 위해 많은 노력을 기울였습니다. 그리고 그것은 가치있는 투자이지만 여전히 질문이 남아 있습니다.


나는 또한 R을위한 dplyr의 큰 팬이고 팬더에 대한 나의 지식을 향상시키기 위해 일하고 있습니다. 당신이 특별한 문제가 없기 때문에 나는 아래의 포스트를 체크 아웃하는 것이 전체 소개 dplyr 비 네트를 분해하고 그것 모두가 팬더와 함께 할 수있는 방법을 보여줄 것을 제안 할 것입니다.

예를 들어, 저자는 R에서 파이프 연산자를 사용한 체인 연결을 보여줍니다.

 flights %>%
   group_by(year, month, day) %>%
   select(arr_delay, dep_delay) %>%
   summarise(
      arr = mean(arr_delay, na.rm = TRUE),
      dep = mean(dep_delay, na.rm = TRUE)
       ) %>%
   filter(arr > 30 | dep > 30)

다음은 팬더 구현입니다.

flights.groupby(['year', 'month', 'day'])
   [['arr_delay', 'dep_delay']]
   .mean()
   .query('arr_delay > 30 | dep_delay > 30')

원래 게시판에서 팬더와 함께 dplyr 작업을 구현하는 방법을 더 많이 비교할 수 있습니다. http://nbviewer.ipython.org/gist/TomAugspurger/6e052140eaa5fdb6e8c0





dplyr