[python] Pandas zählen (verschieden) gleichwertig



Answers

Interessanterweise ist len(unique()) sehr oft einige Male (3x-15x) schneller als nunique() .

Question

Ich benutze Pandas als DB-Ersatz, da ich mehrere Datenbanken habe (Oracle, Mssql, usw.) und ich bin nicht in der Lage, eine Folge von Befehlen zu einem SQL-Äquivalent zu machen.

Ich habe eine Tabelle in einem DataFrame mit einigen Spalten geladen:

YEARMONTH, CLIENTCODE, SIZE, .... etc etc

In SQL würde die Anzahl der verschiedenen Clients pro Jahr zählen:

SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;

Und das Ergebnis wäre

201301    5000
201302    13245

Wie kann ich das in Pandas machen?




Zu den obigen reichen Antworten gibt es eine Möglichkeit, SQL-Abfragen auf Pandas-Datenrahmen mit dem Python-Modul namens pandasql zu schreiben. Nach dem Yhat:

Mit pandasql können Sie Pandas DataFrames mit der SQL-Syntax abfragen. [...] pandasql versucht, Daten für Personen, die neu in Python oder Pandas sind, zu manipulieren und zu bereinigen.




Links