Панды (программное обеспечение)
-
Обзор Pandas
- Pandas — это библиотека Python для обработки и анализа данных, основанная на NumPy.
- Она предоставляет структуры данных и операции для работы с числовыми таблицами и временными рядами.
- Pandas является свободным программным обеспечением с лицензией BSD и была создана Уэсом Маккинни в AQR Capital.
-
История и разработка
- Маккинни начал разработку Pandas в 2008 году для анализа финансовых данных.
- После ухода из AQR он убедил руководство открыть библиотеку с открытым исходным кодом.
- В 2015 году Pandas присоединилась к проекту NumFOCUS.
-
Модель данных
- Pandas использует структуры данных Series и DataFrame для хранения данных.
- Данные могут быть импортированы из различных форматов файлов.
- Series — это одномерная структура данных с метками, DataFrame — двумерная структура данных, похожая на электронную таблицу.
- Pandas поддерживает реляционную алгебру и операции с временными рядами.
-
Функции и операции
- Pandas предоставляет функции для преобразования и суммирования данных, а также для работы с недостающими данными.
- Пользователи могут выбирать подмножества данных по имени столбца, индексу или логическим выражениям.
- Pandas поддерживает временные ряды и специальные объекты для представления отсутствующих данных.
-
Индексы и синтаксис
- Индексы Pandas могут быть любого типа данных NumPy, включая строки и временные метки.
- Синтаксис Pandas для работы с индексами аналогичен синтаксису Python для работы со словарными ключами.
- Pandas поддерживает иерархические индексы для представления нескольких измерений в данных.
-
Критические замечания
- Pandas критикуется за неэффективность и необходимость загрузки всех данных в оперативную память.
- Разработчик Маккинни рекомендует использовать Apache Arrow для повышения производительности.
-
Дополнительная информация
- В статье также упоминаются другие библиотеки для численного анализа, такие как matplotlib, NumPy, Dask, Cauliflower и R.