Python Pandas(一) --数据的结构

pandas 是专门用于数据分析的库,它有两种主要的数据结构,即 Series对象DataFrame对象

系列

环境

操作系统 : windows10
开发工具 : VSCode
python版本 : 3.8.6
pandas版本 : 1.0.3

安装

pandas 是一个非标准库,需要额外安装,使用 pipenv 安装

1
pipenv install pandas

Series对象

Series对象 由一组数据以及这组数据所对应的索引组成(一维数据)

22

创建 Series对象 格式

pd.Series(data)

data : 一般传入一个列表

1
2
3
4
5
6
import pandas as pd

# 创建一个新的Series对象并赋值给name
name = pd.Series(['雨', '园', '博', '客'])
# 查看Series对象
print(name)

DataFrame对象

DataFrame对象 是一种表格型的数据结构,包含行索引、列索引以及它们所对应的数据(二维数据)

23

创建 DataFrame对象 格式

pd.DataFrame(data)

data : 一般传入一个字典,注意字典的 的长度要一致

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import pandas as pd

# 创建一个新的DataFrame对象并赋值给name
name = pd.DataFrame(
{
'姓名': ['小明', '小红', '小军', '小刚'],
'年龄': [17, 16, 18, 17]
}
)

# 查看DataFrame对象
print(name)

'''输出
姓名 年龄
0 小明 17
1 小红 16
2 小军 18
3 小刚 17
'''

# 查看DataFrame对象的 姓名 列数据
print(name['姓名])

'''输出
0 小明
1 小红
2 小军
3 小刚
Name: 姓名, dtype: object
'''

Series对象与DataFrame对象的区别和联系

区别

Series对象 只包含一组索引(行索引)
DataFrame对象 包含两组索引(行索引和列索引),比 Series对象 能呈现更丰富的信息

联系

DataFrame对象 可以看作由 Series对象 构成的字典,并且这些 Series对象 共用同一组 行索引

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import pandas as pd

# 创建一个新的DataFrame对象并赋值给name
name = pd.DataFrame(
{
'姓名': ['小明', '小红', '小军', '小刚'],
'年龄': [17, 16, 18, 17]
}
)

# 查看DataFrame对象的每列的数据类型
print(type(name['姓名']))
print(type(name['年龄']))

'''输出
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
'''

DataFrame对象 的各个列都是一个 Series对象