pandas 0.22



pandas

pandas

التاريخ : 30 ديسمبر 2017 الإصدار : 0.22.0

المثبتون الثنائيون: http://pypi.python.org/pypi/pandas

مستودع المصدر: http://github.com/pandas-dev/pandas

القضايا والأفكار: https://github.com/pandas-dev/pandas/issues

سؤال وجواب الدعم: http://stackoverflow.com/questions/tagged/pandas

القائمة البريدية للمطور: http://groups.google.com/group/pydata

الباندا هي حزمة بايثون توفر هياكل بيانات سريعة ومرنة ومعبرة مصممة لجعل العمل مع البيانات "العلائقية" أو "المسمى" سهل وبديهي. وهي تهدف إلى أن تكون لبنة البناء الأساسية الرفيعة المستوى للقيام بتحليل عملي وواقعي للبيانات في بايثون. بالإضافة إلى ذلك ، لديها الهدف الأوسع المتمثل في أن تصبح أداة تحليل البيانات / التلاعب في المصادر المفتوحة الأكثر قوة ومرونة المتاحة في أي لغة . انها بالفعل في طريقها نحو هذا الهدف.

الباندا مناسب تمامًا للعديد من أنواع البيانات المختلفة:

  • بيانات جدولة مع أعمدة مكتوبة بشكل غير متجانس ، كما هو الحال في جدول SQL أو جدول بيانات Excel
  • بيانات السلاسل الزمنية المرتبة وغير المرتبة (وليس بالضرورة التردد الثابت).
  • بيانات مصفوفة عشوائية (متجانسة أو غير متجانسة) مع تسميات الصفوف والأعمدة
  • أي شكل آخر من مجموعات البيانات الرصدية / الإحصائية. في الواقع ، لا يلزم وضع البيانات على أي تصنيف ليتم وضعها في بنية بيانات الباندا

DataFrame الأساسيان للبيانات من الباندا ، Series (1-dimensional) و DataFrame (ثنائي الأبعاد) ، مع الغالبية العظمى من حالات الاستخدام المعتادة في التمويل والإحصاءات والعلوم الاجتماعية والعديد من مجالات الهندسة. بالنسبة لمستخدمي R ، يوفر DataFrame كل ما توفره R. data.frame وأكثر من ذلك بكثير. بنيت الباندا على رأس NumPy وتهدف إلى التكامل بشكل جيد في بيئة الحوسبة العلمية مع العديد من مكتبات الطرف الثالث.

فيما يلي بعض الأشياء التي تقوم بها حيوانات الباندا بشكل جيد:

  • سهولة التعامل مع البيانات المفقودة (ممثلة بـ NaN) في نقطة عائمة بالإضافة إلى بيانات نقطة غير عائمة
  • إمكانية تغيير الحجم: يمكن إدراج الأعمدة وحذفها من DataFrame وكائنات الأبعاد الأعلى
  • محاذاة تلقائية للبيانات وصريحة: يمكن أن تكون الكائنات محاذية بشكل صريح لمجموعة من التصنيفات ، أو يمكن للمستخدم ببساطة تجاهل التسميات والسماح Series ، DataFrame ، وما إلى ذلك تلقائيًا بمحاذاة البيانات لك في الحسابات
  • مجموعة قوية ومرنة من خلال الوظائف لتنفيذ عمليات دمج التطبيقات على مجموعات البيانات ، لتجميع البيانات وتحويلها
  • تسهيل تحويل البيانات الممزقة والمفككة بشكل مختلف في بنيات بيانات Python و NumPy الأخرى إلى كائنات DataFrame
  • تشريح يستند إلى التسمية الذكية ، وفهرسة خيالية ، وترحيل مجموعات البيانات الكبيرة
  • دمج سهل والانضمام إلى مجموعات البيانات
  • إعادة تشكيل مرنة ومحاور لمجموعات البيانات
  • التوصيف الهرمي للمحاور (من الممكن أن يكون لها تصنيفات متعددة لكل علامة)
  • أدوات IO قوية لتحميل البيانات من الملفات المسطحة (CSV و محدد) ، ملفات Excel ، قواعد البيانات ، وحفظ البيانات / تحميل من تنسيق HDF5 فائق السرعة
  • وظائف محددة من سلسلة زمنية : توليد النطاق الزمني وتحويل التردد ، وتحريك إحصائيات النافذة ، وتحريك انحدارات النافذة الخطية ، وتغيير التاريخ والتأخر ، إلخ.

العديد من هذه المبادئ موجود هنا لمعالجة أوجه القصور التي تحدث بشكل متكرر باستخدام لغات / بيئات بحثية علمية أخرى. بالنسبة لعلماء البيانات ، ينقسم العمل مع البيانات عادة إلى مراحل متعددة: بيانات التنجيم والتنظيف ، تحليل / نمذجة ، ثم تنظيم نتائج التحليل في شكل مناسب للتخطيط أو عرض جدول. الباندا هو أداة مثالية لجميع هذه المهام.

بعض الملاحظات الأخرى

  • الباندا سريع . تم تعديل العديد من بتات الخوارزمية ذات المستوى المنخفض على نطاق واسع في شفرة Cython . ومع ذلك ، كما هو الحال مع أي شيء آخر التعميم عادة ما يضحي بالأداء. لذلك إذا كنت تركز على ميزة واحدة للتطبيق الخاص بك قد تتمكن من إنشاء أداة متخصصة أسرع.
  • الباندا هو الاعتماد على statsmodels ، مما يجعلها جزءا هاما من النظام الإيكولوجي الحوسبة الإحصائية في بايثون.
  • وقد استخدمت الباندا على نطاق واسع في الإنتاج في التطبيقات المالية.

ملحوظة

يفترض هذا المستند الإلمام العام بـ NumPy. إذا لم تستخدم NumPy كثيرًا أو على الإطلاق ، فاستثمر بعض الوقت في التعرف على NumPy أولاً.

انظر نظرة عامة على الحزمة لمزيد من التفاصيل حول ما يوجد في المكتبة.