pandas妙招之在DataFrame中通过索引高效获取数据

发布时间：2025-03-19 点击：97

相关学习推荐：python教程
今天是pandas数据处理专题的第三篇文章，我们一起来聊聊dataframe中的索引。
上一篇文章当中我们介绍了dataframe数据结构当中一些常用的索引的使用方法，比如iloc、loc以及逻辑索引等等。今天的文章我们来看看dataframe的一些基本运算。
数据对齐
我们可以计算两个dataframe的加和，pandas会自动将这两个dataframe进行数据对齐，如果对不上的数据会被置为nan（not a number）。
首先我们来创建两个dataframe：
import numpy as npimport pandas as pddf1 = pd.dataframe(np.arange(9).reshape((3, 3)), columns=list('abc'), index=['1', '2', '3'])df2 = pd.dataframe(np.arange(12).reshape((4, 3)), columns=list('abd'), index=['2', '3', '4', '5'])复制代码得到的结果和我们设想的一致，其实只是通过numpy数组创建dataframe，然后指定index和columns而已，这应该算是很基础的用法了。
然后我们将两个dataframe相加，会得到：
我们发现pandas将两个dataframe加起来合并了之后，凡是没有在两个dataframe都出现的位置就会被置为nan。这其实是很有道理的，实际上不只是加法，我们可以计算两个dataframe的加减乘除的四则运算都是可以的。如果是计算两个dataframe相除的话，那么除了对应不上的数据会被置为nan之外，除零这个行为也会导致异常值的发生（可能不一定是nan，而是inf）。
fill_value
如果我们要对两个dataframe进行运算，那么我们当然不会希望出现空值。这个时候就需要对空值进行填充了，我们直接使用运算符进行运算是没办法传递参数进行填充的，这个时候我们需要使用dataframe当中为我们提供的算术方法。
dataframe当中常用的运算符有这么几种：
add、sub、p这些我们都很好理解，那么这里的radd、rsub方法又是什么意思呢，为什么前面要加上一个r呢？
看起来费解，但是说白了一文不值，radd是用来翻转参数的。举个例子，比如说我们希望得到dataframe当中所有元素的倒数，我们可以写成1 / df。由于1本身并不是一个dataframe，所以我们不能用1来呼叫dataframe当中的方法，也就不能传递参数，为了解决这种情况，我们可以把1 / df写成df.rp(1)，这样我们就可以在其中传递参数了。
由于在算除法的过程当中发生了除零，所以我们得到了一个inf，它表示无穷大。
我们可以在add、p这些方法当中传入一个fill_value的参数，这个参数可以在计算之前对于一边出现缺失值的情况进行填充。也就是说对于对于只在一个dataframe中缺失的位置会被替换成我们指定的值，如果在两个dataframe都缺失，那么依然还会是nan。
我们对比下结果就能发现了，相加之后的(1, d), (4, c)以及(5, c)的位置都是nan，因为df1和df2两个dataframe当中这些位置都是空值，所以没有被填充。
fill_value这个参数在很多api当中都有出现，比如reindex等，用法都是一样的，我们在查阅api文档的时候可以注意一下。
那么对于这种填充了之后还出现的空值我们应该怎么办呢？难道只能手动找到这些位置进行填充吗？当然是不现实的，pandas当中还为我们提供了专门解决空值的api。
空值api
在填充空值之前，我们首先要做的是发现空值。针对这个问题，我们有isna这个api，它会返回一个bool型的dataframe，dataframe当中的每一个位置表示了原dataframe对应的位置是否是空值。
dropna
当然只是发现是否是空值肯定是不够的，我们有时候会希望不要空值的出现，这个时候我们可以选择drop掉空值。针对这种情况，我们可以使用dataframe当中的dropna方法。
我们发现使用了dropna之后，出现了空值的行都被抛弃了。只保留了没有空值的行，有时候我们希望抛弃是的列而不是行，这个时候我们可以通过传入axis参数进行控制。
这样我们得到的就是不含空值的列，除了可以控制行列之外，我们还可以控制执行drop的严格程度。我们可以通过how这个参数来判断，how支持两种值传入，一种是'all'，一种是'any'。all表示只有在某一行或者是某一列全为空值的时候才会抛弃，any与之对应就是只要出现了空值就会抛弃。默认不填的话认为是any，一般情况下我们也用不到这个参数，大概有个印象就可以了。
fillna
pandas除了可以drop含有空值的数据之外，当然也可以用来填充空值，事实上这也是最常用的方法。
我们可以很简单地传入一个具体的值用来填充：
fillna会返回一个新的dataframe，其中所有的nan值会被替换成我们指定的值。如果我们不希望它返回一个新的dataframe，而是直接在原数据进行修改的话，我们可以使用inplace参数，表明这是一个inplace的操作，那么pandas将会在原dataframe上进行修改。
df3.fillna(3, inplace=true)复制代码除了填充具体的值以外，我们也可以和一些计算结合起来算出来应该填充的值。比如说我们可以计算出某一列的均值、最大值、最小值等各种计算来填充。fillna这个函数不仅可以使用在dataframe上，也可以使用在series上，所以我们可以针对dataframe中的某一列或者是某些列进行填充：
除了可以计算出均值、最大最小值等各种值来进行填充之外，还可以指定使用缺失值的前一行或者是后一行的值来填充。实现这个功能需要用到method这个参数，它有两个接收值，ffill表示用前一行的值来进行填充，bfill表示使用后一行的值填充。
我们可以看到，当我们使用ffill填充的时候，对于第一行的数据来说由于它没有前一行了，所以它的nan会被保留。同样当我们使用bfill的时候，最后一行也无法填充。
总结
今天的文章当中我们主要介绍了dataframe的一些基本运算，比如最基础的四则运算。在进行四则运算的时候由于dataframe之间可能存在行列索引不能对齐的情况，这样计算得到的结果会出现空值，所以我们需要对空值进行处理。我们可以在进行计算的时候通过传入fill_value进行填充，也可以在计算之后对结果进行fillna填充。
在实际的运用当中，我们一般很少会直接对两个dataframe进行加减运算，但是dataframe中出现空置是家常便饭的事情。因此对于空值的填充和处理非常重要，可以说是学习中的重点，大家千万注意。
想了解更多编程学习，敬请关注php培训栏目！

服务器连不上-云服务器问题
如何选择棋牌游戏服务器？高级防御服务器的优势是什么？
云服务器网站在哪个文件夹
应急电话没有冲突-备案平台
域名到期抢注好的平台
弥勒gpu云服务器价格
E3 2016《极限竞速：地平线3》定于9月27日正式发售
怎么选购域名？选购域名要注意哪些方面？

上一篇：网站为何打不开了突然打不开

下一篇：我的电脑中出现多个可移动磁盘如何解决

pandas妙招之 在DataFrame中通过索引高效获取数据

pandas妙招之在DataFrame中通过索引高效获取数据