简单使用PANDAS

Pandas是一个卓越的数据分析工具。根据Pandas的文档(http://pandas.pydata.org/pandas-docs/version/0.17.1/):

它有一个更广泛的目标,就是成为就是成为任何语言中,最强大和灵活的开源数据分析/操作工具。

即使它还没有达到这个目标,也不会差得太远。现在让我们来看看。

 

import pandas as pd

df = pd.read_csv('/temp/iris.data',names=['花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度', '类别'])
#全部
print(df)
#查看某一列
print(df['花萼长度'])
#显示4行2列
print(df.ix[:3,:2])
#去重显示某一列的值
print(df['类别'].unique())
#显示类别=Iris-virginica的行
print(df[df['类别'] == 'Iris-virginica'])
#显示类型=Iris-virginica的统计
print(df[df['类别'] == 'Iris-virginica'].count())
#将类别=Iris-virginica的行组成一个新集合
print(df[df['类别'] == 'Iris-virginica'].reset_index(drop=True))
#多条件查询
print(df[(df['类别']=='Iris-virginica')&(df['花萼长度']==6.9)])
print(df[(df['类别']=='Iris-virginica')&(df['花萼长度']>7.6)])
#获取描述性统计
print(df.describe())
#获取自定义百分比的描述性统计
print(df.describe(percentiles=[.20,.40,.60,.80]))
#查看特性之间的相关性
print(df.corr())
#spearman系数
print(df.corr(method='spearman'))
#kendall系数
print(df.corr(method='kendall'))