机器学习流程-入门

机器学习最常见用途:预测和分类

机器学习常见分为两种:

1:有监督学习 –> 根据已经分类好的原始数据,训练生成模型,通过模型再去预测未知的数据进行分类, 数学含义通俗解释就是:我知道Y轴是什么,通过原始数据集(y=f(x)函数也可以是其它函数) 进行训练生成模型后,代入X来求得Y轴数据。

2:无监督学习 –> 并无分类好的原始数据,需要学习并提取分类,再进行训练生成模型

入门只看有监督学习

流程:

1:获取原始数据集

2:对每行数据的标签即分类进行离散化或者数值化,也就是转换成连续型数字或者0/1、true/false等离散化值,这里可能存在多类别问题即0,1,2,3,4,5…..多个类别

3:提取特征值并离散化或者数值化

4:根据类别对数据集进行有效划分,这个划分又有多种方式,按照信息熵变化来划分(就是数据集变化前后的百分比,值越大表示混淆度越高)、按照比例进行有效划分(这里是针对多类别划分)即按照每种类别提取数据集再进行划分训练集和测试集,最终合并起来,

这个时候数据分类划分的比例就和原始数据比例是一样的了。后面附上代码

5:根据业务(即是预测数值型还是预测离散型即类别),选取合适算法模型线性回归、逻辑回归、KNN(k-邻近算法)、随机森林、神经网络等等。 线性回归算法适合数值型预测、KNN、随机森林、ID3、C4.5等算法适合分类也即离散型

6:通过第4步的数据划分和第3步的特征提取,调用模型来进行训练、测试、预测,正确率越高,该模型越优

7:对模型进行性能评估,提取模型参数

8:调用matplotlib等图库,对模型参数进行可视化处理,以及特征值的权重大小展示

9:调用模型,对新的数据集进行预测分类,即可完成实际业务问题

整个流程结束

BlogJava-专家区责编内容来自:BlogJava-专家区 (源链) | 更多关于

阅读提示:酷辣虫无法对本内容的真实性提供任何保证,请自行验证并承担相关的风险与后果!
本站遵循[CC BY-NC-SA 4.0]。如您有版权、意见投诉等问题,请通过eMail联系我们处理。
酷辣虫 » 综合技术 » 机器学习流程-入门

喜欢 (0)or分享给?

专业 x 专注 x 聚合 x 分享 CC BY-NC-SA 4.0

使用声明 | 英豪名录