利用Python进行数据分析之初识Pandas

微信扫一扫,分享到朋友圈

利用Python进行数据分析之初识Pandas

Pandas是构建在Python编程语言之上的一个快速、强大、灵活且易于使用的开源数据分析和操作工具。Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集。

在Pandas中有这样两种数据结构:DataFrame、Series,DataFrame就类似Excel里面的Sheet表,而Series就相当于表中的某一列。

安装

在这里我们使用pip进行安装(如果没有可自行查询如何安装pip)安装panda最简单的方法是将其作为Anaconda的一部分安装,Anaconda主要用于数据分析和科学计算。还提供源代码、PyPI、ActivePython、各种Linux发行版或开发版本进行安装的说明。

当然,最为基础的Python环境还是少不了的,如果你是Linux或使用的Mac就不用安装Python了。

pip install pandas

Pandas中的数据结构

我们都知道在Excel中是有sheet表,在sheet中每个单元格都是有坐标来表示的,例如:A1、F3等,想要哪些数据只需要定位都响应数据都坐标或某个范围。这里有一点需要强调,Pandas无论是和Exce相比还是和SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理。

DataFrame

在Pandas中同样数据表表示方式与Excel基本相同,只不过Excel中的”列”,在Pandas中叫做”Series”:

Series

Pandas初体验

如果想要构建下面这个表格,在Excel中大家再熟悉不过了,在Pandas中该如何构造呢?

Excel表格

要想使用Pandas,首先我们需要导入模块(这里使用的ipython,可通过pip install ipython安装)。

导入pandas

我们需要手动将数据存储在表中,就要创建一个DataFrame。当使用Python列表和字典时,字典键将作为列头,而每个列表中的值将用作DataFrame的行。

df = pd.DataFrame({ “设备名称”: [‘服务器’, ‘服务器’, ‘磁盘阵列’, ‘网络设备’], “设备品牌”: [‘华为’, ‘浪潮’, ‘Sugon’, ‘H3C’], “用途”: [‘高性能计算’, ‘高性能计算’, ‘存储’, ‘接入交换机’], “价格”: [80000, 50800, 150000, 8000]})

创建DataFrame

命令行直接输入变量名称”df”输出DataFrame所有数据:

输出DataFrame

注:第一眼看上去,感觉好乱,有木有!有童鞋说:我想把”设备品牌”放到最前面(在做表的时候,一般都是第一列作为表头出现)。可不可以实现呢?当然可以!只需要在创建时指定”index”就可以了。

指定index后,输出DataFrame

DataFrame是一种二维数据结构,可以在列中存储不同类型的数据(包括字符、整数、浮点数等)。它类似于Excel表格、SQL数据库表或R语言中的data.frame。

我只想要”设备名称”那一列,怎么拿到呢?

获取单个Series

注:当选择DataFrame的单个列时,结果就是一个Series。我们想要选择哪一列,就在方括号[]之间使用列标签。

当然,我们也可以创建一个Series:

创建Series

在上面设备信息表中,我想拿到表中价格最贵的,该如何操作?这里就要用到max()方法。

最大值

Pandas提供了很多功能,每个功能都有一个可以应用到DataFrame或Series的方法(很多方法,后面我们还会用到很多)。因为方法是函数,所以不要忘记使用括号()哟。

以上内容,简单了解一下Pandas,Pandas功能十分强大,后面我们会由浅至深逐步了解Pandas的强大之处,如果对你有用,记得点赞+关注哟~

微信已支持改微信号 几步骤教你修改微信号

上一篇

Ceph如何扩展到超过十亿个对象?

下一篇

你也可能喜欢

利用Python进行数据分析之初识Pandas

长按储存图像,分享给朋友