大多数序列中的元素都可以被数值表示,这意味着它们都能被转换成为数组,如下所示:
array([ 4, 6, 10, 14, 22, 26])
而在实际的数据分析项目中,我们也常常能够遇见由字符串构成的序列,如人名、地名等等,下面将分享一些处理字符串序列的基本方法,以及一些简单的数据读写方法。首先,大小写的处理是我们处理字符串时常见的问题,Python 内置的函数 capitalize 能够帮助我们将各种形式的字符串转化为首字母大写的形式:['Peter', 'Paul', 'Mary', 'Guido']
需要注意的是,这个函数无法处理缺失值,所以在转换大小写形式前,请确认你的目标字符串列表里没有缺失值:
接下来,我们来看一下如何处理含有字符串元素的 Pandas 序列,首先我们构建一个 Pandas 序列 name:
可以看到,我们的序列 name 中存在一个缺失值 None,我们可以通过 Pandas 序列的 str 属性将序列中的字符串元素提取出来,并调用 capitalized
函数,从而将所有字符串都转化为首字母大写的形式:
类似地,我们还可以运用函数 lower
将所有的字符串转化为小写形式:
查看字符串长度:
检查字符串首字母是否为 T:
以上内容转自 数析学院,原文后续还有字符串分割、正则表达式匹配等较为复杂的内容,有需要的同学可以直接访问原文查看