Pandas是一个卓越的数据分析工具。根据Pandas的文档(http://pandas.pydata.org/pandas-docs/version/0.17.1/):
它有一个更广泛的目标,就是成为就是成为任何语言中,最强大和灵活的开源数据分析/操作工具。
即使它还没有达到这个目标,也不会差得太远。现在让我们来看看。
import pandas as pd df = pd.read_csv('/temp/iris.data',names=['花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度', '类别']) #全部 print(df) #查看某一列 print(df['花萼长度']) #显示4行2列 print(df.ix[:3,:2]) #去重显示某一列的值 print(df['类别'].unique()) #显示类别=Iris-virginica的行 print(df[df['类别'] == 'Iris-virginica']) #显示类型=Iris-virginica的统计 print(df[df['类别'] == 'Iris-virginica'].count()) #将类别=Iris-virginica的行组成一个新集合 print(df[df['类别'] == 'Iris-virginica'].reset_index(drop=True)) #多条件查询 print(df[(df['类别']=='Iris-virginica')&(df['花萼长度']==6.9)]) print(df[(df['类别']=='Iris-virginica')&(df['花萼长度']>7.6)]) #获取描述性统计 print(df.describe()) #获取自定义百分比的描述性统计 print(df.describe(percentiles=[.20,.40,.60,.80])) #查看特性之间的相关性 print(df.corr()) #spearman系数 print(df.corr(method='spearman')) #kendall系数 print(df.corr(method='kendall'))