scikit-learn数据集模块

在scikit-learn是一个基于python编程语言的开源机器学习库,他具有各种分类,回归和聚类算法,并可以与python数值和科学计算库numpy以及scipy互操作.
1.块状数据集
这个数据集用于测试聚类算法,该数据集是特意设计,专门用于测试聚类算法的准确程度的
以下是生成块状数据集的方法
sklearn.darasets.make_blobs(n_samples=100,n_features=2,centers=3,cluster_std=1.0,center_box=(-10,10),shuffle=true,random_state=None)
其中
n_samples是数据数目
n_features是特征数据的列的数目(纬度)
centers是类的中心
cluster_std标准差
center_box是堆积生成数据中心时的中心的边界
shuffle 是否打乱样本
random_state 随机种子
2.环形数据集
这是一个圆环套圆环的数据集,这是一个非线性可分的问题,所以需要使用非线性模型,对于这种数据集,简单的算法如k-means就不能处理.
下面是生成环形数据集的方法:
sklearn.datasets.make_circles(n_samples = 100,shuffle = True,noise = None,random_state = None,factor = 0.8)
n_samples是数据的数目,shuffle指数据是否发乱,noise是添加到圆形数据集上的随机噪声数据,random_state是随机种子,factor是环形数据间的比例因子。