pandas 0.22



pandas

Дата : 30 декабря 2017 г. Версия : 0.22.0

Двоичные установщики: http://pypi.python.org/pypi/pandas

Исходный репозиторий: http://github.com/pandas-dev/pandas

Проблемы и идеи: https://github.com/pandas-dev/pandas/issues

Q & A Поддержка: http://stackoverflow.com/questions/tagged/pandas

Список рассылки разработчиков: http://groups.google.com/group/pydata

pandas - это пакет Python , обеспечивающий быструю, гибкую и выразительную структуру данных, предназначенную для работы с «реляционными» или «помеченными» данными как простой, так и интуитивно понятной. Он призван стать фундаментальным строительным блоком высокого уровня для практического анализа данных реального мира в Python. Кроме того, у него есть более широкая цель - стать самым мощным и гибким инструментом анализа / обработки данных с открытым исходным кодом, доступным на любом языке . Это уже на пути к этой цели.

pandas хорошо подходит для многих разных видов данных:

  • Табличные данные с неоднородно типизированными столбцами, как в таблице SQL или в электронной таблице Excel
  • Упорядоченные и неупорядоченные (не обязательно фиксированные частоты) данные временных рядов.
  • Произвольные матричные данные (однородно типизированные или гетерогенные) с метками строк и столбцов
  • Любая другая форма наблюдений / статистических данных. Фактически данные не обязательно должны быть помечены как помещенные в структуру данных pandas

Две первичные структуры данных pandas, Series (1-мерная) и DataFrame (2-мерная) обрабатывают подавляющее большинство типичных случаев использования в финансах, статистике, социальных науках и во многих областях техники. Для пользователей R DataFrame предоставляет все, что предоставляет data.frame R и многое другое. pandas построен поверх NumPy и предназначен для интеграции в научную вычислительную среду со многими другими сторонними библиотеками.

Вот лишь некоторые из вещей, которые делают панды:

  • Простое управление отсутствующими данными (представленными как NaN) в плавающей запятой, а также данными без плавающей запятой
  • Модификация размера: столбцы могут быть вставлены и удалены из DataFrame и объектов с более высокой размерностью
  • Автоматическое и явное выравнивание данных : объекты могут быть явно привязаны к набору меток или пользователь может просто игнорировать метки и позволить Series , DataFrame и т. Д. Автоматически выравнивать данные для вас в вычислениях
  • Мощная, гибкая группа по функциональности для выполнения операций split-apply-comb на наборах данных, как для агрегирования, так и для преобразования данных
  • Упростите преобразование оборванных, по-разному индексированных данных в другие структуры данных Python и NumPy в объекты DataFrame
  • Интеллектуальная нарезка на основе меток, удобная индексация и подмножество больших наборов данных
  • Интуитивное слияние и объединение наборов данных
  • Гибкая перестройка и поворот наборов данных
  • Иерархическая маркировка осей (возможно наличие нескольких меток за галочку)
  • Надежные инструменты ввода-вывода для загрузки данных из плоских файлов (CSV и с разделителями), файлов Excel, баз данных и сохранения / загрузки данных из сверхбыстрого формата HDF5
  • Временные ряды - специфические функциональные возможности: создание диапазона дат и преобразование частоты, статистика перемещения окон, линейные регрессии движущихся окон, сдвиг дат и отставание и т. Д.

Многие из этих принципов здесь направлены на устранение недостатков, часто возникающих с использованием других языков / исследовательских сред. Для ученых-исследователей данных работа с данными обычно делится на несколько этапов: обработка и очистка данных, их анализ / моделирование, а затем организация результатов анализа в форме, подходящей для отображения или отображения таблиц. pandas - идеальный инструмент для всех этих задач.

Некоторые другие примечания

  • Панды бывают быстрыми . Многие алгоритмические биты низкого уровня были широко модифицированы в коде Cython . Однако, как и в любом другом обобщении, обычно жертвует производительность. Поэтому, если вы сосредоточитесь на одной функции для своего приложения, вы сможете создать более быстрый специализированный инструмент.
  • pandas - это зависимость statsmodels , что делает его важной частью экосистемы статистических вычислений в Python.
  • pandas широко используется в производстве в финансовых приложениях.

Заметка

Эта документация предполагает общее знакомство с NumPy. Если вы не использовали NumPy много или вообще, потратите некоторое время на изучение NumPy в первую очередь.

См. Обзор пакета для более подробной информации о том, что находится в библиотеке.