数据分析之Numpy库入门

发表于 2019-04-04 更新于 2020-11-24 分类于 Python 阅读次数：阅读次数：

数据的维度

一个数据表达一个含义
一组数据表达一个或多个含义

一维数据

一维数据由对等关系的有序或无序数据构成，采用线性方式组织，对应列表、数组和集合等概念。

列表和数组

列表：数据类型可以不同
数组：数据类型相同

二维数据

二维数据由多个一维数据构成，是一维数据的组合形式。表格是典型的二维数据，其中，表头是二维数据的一部分。

多维数据

多维数据由一维或二维数据在新维度上扩展形成。

高维数据

高维数据仅利用最基本的二元关系展示数据间的复杂结构。

{
    “firstName” : “Tian” ,
    “lastName”  : “Song” ,
    “address”   : {
                    “streetAddr” : “中关村南大街5号” ,
                    “city”       : “北京市” ,
                    “zipcode”    : “100081”
                   } ,
    “prof”      : [ “Computer System” , “Security” ]
}

数据维度的Python表示

数据维度是数据的组织形式。

一维数据：列表和集合类型
二维数据：列表类型
多维数据：列表类型
高维数据：字典类型或数据表示格式(JSON、XML和YAML格式)

NumPy的数组对象：ndarray

NumPy

NumPy是一个开源的Python科学计算基础库，包含：

一个强大的N维数组对象 ndarray
广播功能函数
整合C/C++/Fortran代码的工具
线性代数、傅里叶变换、随机数生成等功能
NumPy是SciPy、Pandas等数据处理或科学计算库的基础。

NumPy的引用

尽管别名可以省略或更改，建议使用上述约定的别名

N维数组对象：ndarray

Python已有列表类型，为什么需要一个数组对象(类型)？

数组对象可以去掉元素间运算所需的循环，使一维向量更像单个数
设置专门的数组对象，经过优化，可以提升这类应用的运算速度

观察：科学计算中，一个维度所有数据的类型往往相同

数组对象采用相同的数据类型，有助于节省运算和存储

ndarray是一个多维数组对象，由两部分构成：

实际的数据
描述这些数据的元数据（数据维度、数据类型等）
ndarray数组一般要求所有元素类型相同（同质），数组下标从0开始

ndarray实例

1
2
3

np.array()  #生成一个ndarray数组
#np.array()输出成[]形式，元素由空格分割
#轴(axis): 保存数据的维度；秩(rank)：轴的数量

ndarray对象的属性

属性	说明
`.ndim`	秩，即轴的数量或维度的数量
`.shape`	ndarray对象的尺度，对于矩阵，n行m列
`.size`	ndarray对象元素的个数，相当于.shape中n*m的值
`.dtype`	ndarray对象的元素类型
`.itemsize`	ndarray对象中每个元素的大小，以字节为单位

ndarray数组的元素

ndarray的元素类型(1)

数据类型	说明
bool	布尔类型，True或False
intc	与C语言中的int类型一致，一般是int32或int64
intp	用于索引的整数，与C语言中ssize_t一致，int32或int64
int8	字节长度的整数，取值：[‐128, 127]
int16	16位长度的整数，取值：[‐32768, 32767]
int32	32位长度的整数，取值：[‐2^31,2^31‐1]
int64	64位长度的整数，取值：[‐2^63,2^63‐1]

ndarray的元素类型(2)

数据类型	说明
uint8	8位无符号整数，取值：[0, 255]
uint16	16位无符号整数，取值：[0, 65535]
uint32	32位无符号整数，取值：[0,232‐1]
uint6	32位无符号整数，取值：[0,264‐1]
float16	16位半精度浮点数：1位符号位，5位指数，10位尾数
float32	32位半精度浮点数：1位符号位，8位指数，23位尾数
float64	64位半精度浮点数：1位符号位，11位指数，52位尾数

ndarray的元素类型(3)

数据类型	说明
complex64	复数类型，实部和虚部都是32位浮点数
complex128	复数类型，实部和虚部都是64位浮点数

ndarray为什么要支持这么多种元素类型？

对比：Python语法仅支持整数、浮点数和复数3种类型

科学计算涉及数据较多，对存储和性能都有较高要求
对元素类型精细定义，有助于NumPy合理使用存储空间并优化性能
对元素类型精细定义，有助于程序员对程序规模有合理评估

非同质的ndarray对象

ndarray数组可以由非同质对象构成
非同质ndarray元素为对象类型
非同质ndarray对象无法有效发挥NumPy优势，尽量避免

ndarray数组的创建

ndarray数组的创建方法

从Python中的列表、元组等类型创建ndarray数组
使用NumPy中函数创建ndarray数组，如：arange, ones, zero

（1）从Python中的列表、元组等类型创建ndarray数组

1
2
3

x= np.array(list/tuple)
x= np.array(list/tuple, dtype=np.float32)
#当np.array()不指定dtype时，NumPy将根据数据情况关联一个dtype

#从列表类型创建
x = np.array([0, 1, 2, 3])

#从元组类型创建
x = np.array((4, 5, 6, 7))

#从列表和元组混合类型创建
x = np.array([[1, 2], [9, 8], (0.1, 0.2)])

（2）使用NumPy中函数创建ndarray数组，如：arange, ones, zero等

函数	说明
`np.arange(n)`	类似range()函数，返回ndarray类型，元素从0到n‐1
`np.ones(shape)`	根据shape生成一个全1数组，shape是元组类型
`np.zeros(shape)`	根据shape生成一个全0数组，shape是元组类型
`np.full(shape,val)`	根据shape生成一个数组，每个元素值都是valnp.eye(n)创建一个正方的n*n单位矩阵，对角线为1，其余为0
`np.ones_like(a)`	根据数组a的形状生成一个全1数组
`np.zeros_like(a)`	根据数组a的形状生成一个全0数组
`np.full_like(a,val)`	根据数组a的形状生成一个数组，每个元素值都是val

（3）使用NumPy中其他函数创建ndarray数组

函数	说明
`np.linspace()`	根据起止数据等间距地填充数据，形成数组
`np.concatenate()`	将两个或多个数组合并成一个新的

ndarray数组的变换

对于创建后的ndarray数组，可以对其进行维度变换和元素类型变换

ndarray数组的维度变换

方法	说明
`.reshape(shape)`	不改变数组元素，返回一个shape形状的数组，原数组不变
`.resize(shape)`	与.reshape()功能一致，但修改原数组
`.swapaxes(ax1,ax2)`	将数组n个维度中两个维度进行调换
`.flatten()`	对数组进行降维，返回折叠后的一维数组，原数组不变

ndarray数组的类型变换

1	new_a = a.astype(new_type)

astype()方法一定会创建新的数组（原始数据的一个拷贝），即使两个类型一致。

ndarray数组向列表的转换

1	ls = a.tolist()

ndarray数组的操作

数组的索引和切片

索引：获取数组中特定位置元素的过程
切片：获取数组元素子集的过程

一维数组的索引和切片

In [7]: a = np.array([9,8,7,6,5])

In [8]: a[2]
Out[8]: 7

#起始编号: 终止编号(不含): 步长，3元素冒号分割
#编号0开始从左递增，或‐1开始从右递减
In [9]: a[1:4:2]
Out[9]: array([8, 6])

多维数组的索引和切片

多维数组的索引：每个维度一个索引值，逗号分割

In [10]: a = np.arange(24).reshape((2,3,4))

In [11]: a
Out[11]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [12]: a[1,2,3]
Out[12]: 23

In [13]: a[0,1,2]
Out[13]: 6

In [14]: a[-1,-2,-3]
Out[14]: 17

多维数组的切片：选取一个维度用”:”,每个维度切片方法与一维数组相同,每个维度可以使用步长跳跃切片。

#In [10]: a = np.arange(24).reshape((2,3,4))

In [15]: a[:,1,-3]
Out[15]: array([ 5, 17])

In [16]: a[:,1:3,:]
Out[16]: 
array([[[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [17]: a[:,:,::2]
Out[17]: 
array([[[ 0,  2],
        [ 4,  6],
        [ 8, 10]],

       [[12, 14],
        [16, 18],
        [20, 22]]])

ndarray数组的运算

数组与标量之间的运算

数组与标量之间的运算作用于数组的每一个元素

In [19]: a = np.arange(24).reshape((2,3,4))

In [20]: a
Out[20]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [21]: a.mean()
Out[21]: 11.5

In [22]: a = a / a.mean()

In [23]: a
Out[23]: 
array([[[0.        , 0.08695652, 0.17391304, 0.26086957],
        [0.34782609, 0.43478261, 0.52173913, 0.60869565],
        [0.69565217, 0.7826087 , 0.86956522, 0.95652174]],

       [[1.04347826, 1.13043478, 1.2173913 , 1.30434783],
        [1.39130435, 1.47826087, 1.56521739, 1.65217391],
        [1.73913043, 1.82608696, 1.91304348, 2.        ]]])

NumPy一元函数

对ndarray中的数据执行元素级运算的函数

函数	说明
`np.abs(x)` `np.fabs(x)`	计算数组各元素的绝对值
`np.sqrt(x)`	计算数组各元素的平方根
`np.square(x)`	计算数组各元素的平方
`np.log(x)` `np.log10(x)` `np.log2(x)`	计算数组各元素的自然对数、10底对数和2底对数
`np.ceil(x)` `np.floor(x)`	计算数组各元素的ceiling值或 floor值
`np.rint(x)`	计算数组各元素的四舍五入值
`np.modf(x)`	将数组各元素的小数和整数部分以两个独立数组形式返回
`np.cos(x)` `np.cosh(x)` `np.sin(x)` `np.sinh(x)` `np.tan(x)` `np.tanh(x)`	计算数组各元素的普通型和双曲型三角函数
`np.exp(x)`	计算数组各元素的指数值
`np.sign(x)`	计算数组各元素的符号值，1(+), 0,-1(-)

In [24]: a = np.arange(24).reshape((2,3,4))

In [25]: np.square(a)
Out[25]: 
array([[[  0,   1,   4,   9],
        [ 16,  25,  36,  49],
        [ 64,  81, 100, 121]],

       [[144, 169, 196, 225],
        [256, 289, 324, 361],
        [400, 441, 484, 529]]], dtype=int32)

In [26]: a = np.sqrt(a)

In [27]: a
Out[27]: 
array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131],
        [2.82842712, 3.        , 3.16227766, 3.31662479]],

       [[3.46410162, 3.60555128, 3.74165739, 3.87298335],
        [4.        , 4.12310563, 4.24264069, 4.35889894],
        [4.47213595, 4.58257569, 4.69041576, 4.79583152]]])

In [28]: np.modf(a)
Out[28]: 
(array([[[0.        , 0.        , 0.41421356, 0.73205081],
         [0.        , 0.23606798, 0.44948974, 0.64575131],
         [0.82842712, 0.        , 0.16227766, 0.31662479]],
 
        [[0.46410162, 0.60555128, 0.74165739, 0.87298335],
         [0.        , 0.12310563, 0.24264069, 0.35889894],
         [0.47213595, 0.58257569, 0.69041576, 0.79583152]]]),
 array([[[0., 1., 1., 1.],
         [2., 2., 2., 2.],
         [2., 3., 3., 3.]],
 
        [[3., 3., 3., 3.],
         [4., 4., 4., 4.],
         [4., 4., 4., 4.]]]))

NumPy二元函数

函数	说明
`+ ‐ * / **`	两个数组各元素进行对应运算
`np.maximum(x,y)` `np.fmax()` `np.minimum(x,y)` `np.fmin()`	元素级的最大值/最小值计算
`np.mod(x,y)`	元素级的模运算
`np.copysign(x,y)`	将数组y中各元素值的符号赋值给数组x对应元素
`>< >= <= == !=`	算术比较，产生布尔型数组

In [29]: a = np.arange(24).reshape((2,3,4))

In [30]: b = np.sqrt(a)

In [31]: a
Out[31]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [32]: b
Out[32]: 
array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131],
        [2.82842712, 3.        , 3.16227766, 3.31662479]],

       [[3.46410162, 3.60555128, 3.74165739, 3.87298335],
        [4.        , 4.12310563, 4.24264069, 4.35889894],
        [4.47213595, 4.58257569, 4.69041576, 4.79583152]]])

In [33]: np.maximum(a,b)
Out[33]: 
array([[[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]],

       [[12., 13., 14., 15.],
        [16., 17., 18., 19.],
        [20., 21., 22., 23.]]])

In [34]: a > b
Out[34]: 
array([[[False, False,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]],

       [[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]]])