Pandas 数组/标量/数据类型参考手册

对于大多数数据类型,Pandas 使用 NumPy 数组作为具体的存储对象,这些对象被包含在 Index(索引)、Series(序列)或 DataFrame(数据框)中。

对于某些数据类型,Pandas 扩展了 NumPy 的类型系统。这些类型的字符串别名可以在 dtypes 中找到。

Pandas 数组

类/方法 描述
pd.array(data, dtype) 创建一个 Pandas 数组(ExtensionArray)。
pd.Series.array 返回 Series 的底层数组(ExtensionArray)。
pd.arrays.IntegerArray 用于存储整数数据的数组(支持缺失值)。
pd.arrays.BooleanArray 用于存储布尔数据的数组(支持缺失值)。
pd.arrays.StringArray 用于存储字符串数据的数组(支持缺失值)。
pd.arrays.IntervalArray 用于存储区间数据的数组。
pd.arrays.DatetimeArray 用于存储日期时间数据的数组。
pd.arrays.TimedeltaArray 用于存储时间差数据的数组。
pd.arrays.PeriodArray 用于存储周期数据的数组。
pd.arrays.SparseArray 用于存储稀疏数据的数组。

Pandas 标量

类/方法 描述
pd.NA 表示缺失值的标量(类似于 NaN)。
pd.Timestamp 表示时间戳的标量。
pd.Timedelta 表示时间差的标量。
pd.Period 表示周期的标量。
pd.Interval 表示区间的标量。
pd.Categorical 表示分类数据的标量。

Pandas 数据类型

类/方法 描述
pd.StringDtype() 字符串数据类型(支持缺失值)。
pd.BooleanDtype() 布尔数据类型(支持缺失值)。
pd.Int8Dtype() 8 位整数数据类型(支持缺失值)。
pd.Int16Dtype() 16 位整数数据类型(支持缺失值)。
pd.Int32Dtype() 32 位整数数据类型(支持缺失值)。
pd.Int64Dtype() 64 位整数数据类型(支持缺失值)。
pd.Float32Dtype() 32 位浮点数数据类型(支持缺失值)。
pd.Float64Dtype() 64 位浮点数数据类型(支持缺失值)。
pd.CategoricalDtype() 分类数据类型。
pd.DatetimeTZDtype() 带时区的日期时间数据类型。
pd.PeriodDtype() 周期数据类型。
pd.IntervalDtype() 区间数据类型。
pd.SparseDtype() 稀疏数据类型。

常用方法

数组方法

方法 描述
array.take(indices) 根据索引从数组中提取元素。
array.copy() 复制数组。
array.isna() 检查数组中的缺失值。
array.fillna(value) 用指定值填充缺失值。
array.unique() 返回数组中的唯一值。
array.value_counts() 返回数组中每个值的频率。

标量方法

方法 描述
timestamp.to_pydatetime() Timestamp 转换为 Python 的 datetime 对象。
timedelta.total_seconds() Timedelta 转换为总秒数。
period.start_time 返回 Period 的起始时间。
period.end_time 返回 Period 的结束时间。
interval.left 返回 Interval 的左边界。
interval.right 返回 Interval 的右边界。

数据类型方法

方法 描述
dtype.name 返回数据类型的名称。
dtype.kind 返回数据类型的种类(如 i 表示整数,f 表示浮点数)。
dtype.construct_array_type() 返回与数据类型关联的数组类。

实例

import pandas as pd

# 创建 Pandas 数组
arr = pd.array([1, 2, None], dtype=pd.Int64Dtype())
print(arr)

# 使用 Pandas 标量
ts = pd.Timestamp('2023-01-01')
print(ts.year)  # 输出年份

# 使用 Pandas 数据类型
dtype = pd.StringDtype()
print(dtype.name)  # 输出数据类型名称

如果需要更详细的信息,可以参考 Pandas 官方文档