DAY #26
1.主题
Data analysis in Python with pandas全30集
https://www.bilibili.com/video/av6785636/?p=3
NumPy 数据科学基本训练
https://www.bilibili.com/video/av11263377/?p=12
2.摘要
loc[ ] 与 iloc[ ] 用法:
ufo.loc[ufo.City=='Oakland','State']
ufo.loc[ : , ['City','State']]
ufo.loc[[0, 2, 4], 1 : 4] ——>包括第四列数据
ufo.head(4).drop('Time',axis =1)——>loc[ , ]用行列锁定区域,:表示连续选择多项,[ , ]表示多项单独选择
ufo.iloc[ : , 0 : 4 ] ——> 不包括第四列数据
ufo.iloc[ : , [0,3] ] ——> iloc[ ,]用integer锁定行与列
保存与读取文件:
train.to_pickle('newtrain.pkl')
pd.read_pickle('newtrain.pkl')
随机抽样:
ufo.sample(4) ——>抽取4个
ufo.sample(frac = 0.05) ——>抽取5%
时间处理:
ufo['Time'] = pd.to_datetime(ufo.Time) ——> 将ufo.Time转为默认时间格式
ufo.Time.dt.month ——> 查询ufo.Time列的年份、月份数、时刻。。。。
ts = pd.to_datetime('3/2/1955')
ufo.loc[ufo.Time >= ts] ——> 设定时间戳ts,并筛选出此刻之后的数据
重复:
ufo.duplicated().sum() ——>对整个表格用duplicated查重,并统计重复的记录数
ufo.loc[ufo.duplicated() , : ] ——>传入duplicated的布尔值,查看所有重复的记录行
ufo.drop_duplicates( ) ——> 用drop_duplicates删除重复行,
ufo.duplicated(subset = ['Time', 'Year']) ——> 用subse限定范围查重
显示:
pd.get_option('display.max_rows') ——>查出默认显示行数
pd.set_option('display.max_rows', None) ——>修改显示行数,None表示显示全部记录数,100表示显示100行
pd.reset_option('display.max_rows') ——>恢复默认
pd.get_option('display.max_colwidth')——>查出默认显示列宽
pd.set_option('display.max_colwidth', 100)
pd.get_option('display.precision')——>查出默认小数点后保留位数
pd.set_option('display.precision’,2)——>修改小数点后为2位
pd.reset_option('all’)——> 全部恢复默认值
查阅文档:
pd.describe_option() ——>查阅所有文档
pd.describe_option('date')
创建DataFrame并指定列名称排序与索引:
df = pd.DataFrame({ 'id' : [101, 102, 103], 'color' : ['red' , 'black', 'green']},columns = ['id', 'color'], index = ['a', 'b','c'])
pd.DataFrame([[101, 'red'] , [102, 'black'] , [ 103, 'green']] , columns = ['id' , 'color'])
apply的用法:
train['Name_length'] = train.Name.apply(len) ——>单独对某列的单元格逐个运用函数len,只写上函数名
drinks.loc[ : , 'beer_servings' : 'wine_servings'].applymap(float) ——> 对整个DataFrame的每个单元格运用函数,只写上函数名
添加说明文字markdown:
# 写上说明文字 ,距离#要有空格 ,然后ESC + M,再shift + Enter,就可以啦~~
3.心得感悟
还是要多听牛人的课程,尤其是geek的播客,尤其是 视频/音频 + 配套资料 的模式,可以大幅增加参与度,随时练手,~~
jupyter notebook还有好多功能,都很神奇,要多学一点!
牛人的讲解让人茅塞顿开,也意识到了python + numpy + pandas的工具组合真乃科研神器!!
牛人讲解 + 视频/音频 + 配套资料 的模式就是以后挑选学习资料的标准,读书笔记 + 多轮复习 就是最快的学习路径。
4.时间统计
昨日阅读5小时,累计530小时