python - 在scikit-learn中将分类器保存到磁盘

python - 在scikit-learn中将分类器保存到磁盘

如何将训练过的朴素贝叶斯分类器保存到磁盘并将其用于预测数据? 我从scikit-learn网站上获得了以下示例程序: from sklearn import datasets iris=datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb=GaussianNB() y_pred=gnb.fit(iri…


python - 使用scikit-learn在Naive Bayes分类器中混合分类和连续数据

我正在使用Python中的scikit-learn来开发一种分类算法来预测某些客户的性别。 除此之外,我想使用朴素贝叶斯分类器,但我的问题是我有混合的分类数据(例如:“在线注册”,“接受电子邮件通知”等)和连续数据(例如:“年龄”,“长度”)成员资格“等)。 我之前没有使用scikit,但我认为高斯朴素贝叶斯适用于连续数据,伯努利朴素贝叶斯可用于分类数据。 但是,由于我想在我的模型中同时拥有分类…


runtime error - 每个班级我都有三个以上的元素,但是我得到这个错误:在scikit-learn中class不能小于k=3

这是我的目标(y): target=[7,1,2,2,3,5,4, 1,3,1,4,4,6,6, 7,5,7,8,8,8,5, 3,3,6,2,7,7,1, 10,3,7,10,4,10, 2,2,2,7] 我不知道为什么当我执行时:...#将数据集分成两个相等的部分X_train,X_test,y_train,y_test=…


machine learning - 为什么一个热门编码可以提高机器学习性能?

我注意到,当一个热门编码用于特定数据集(矩阵)并用作学习算法的训练数据时,与使用原始矩阵本身作为训练数据相比,它在预测准确性方面显示出更好的结果。 这种性能如何增加?…


python - scikit.predict()默认阈值

我正在研究不平衡类(5%1)的分类问题。 我想预测班级,而不是概率。 在二进制分类问题中,scikit的classifier.predict()默认使用0.5吗? 如果没有,那么默认方法是什么? 如果是,我该如何更改? 在scikit中,一些分类器具有class_weight='auto'选项,但并非所有分类器都具有。 使用class_weight='auto',. class_weight…



machine learning - Scikit学习-fit_transform测试集

我正在努力使用Python中的随机森林与Scikit学习。 我的问题是,我用它来进行文本分类(3类-正/负/中性),我提取的功能主要是单词/单词,所以我需要将它们转换为数字特征。 我找到了一个方法来使用DictVectorizer的fit_transform:from sklearn.preprocessing import LabelEncoder from sklearn.metric…


python - Sklearn中的非负矩阵分解

我正在大矩阵上应用非负矩阵分解(NMF)。 本质上,NMF方法做如下:给定一个m乘n的矩阵A,NMF分解为A=WH,其中W是m乘以d,H是d乘n。 ProjectedGradientNMF方法在Python包Sklearn中实现。 我会希望该算法返回W和H.但它似乎只返回H,而不是W.应用算法再次AT(转置)可以给我W.但是,我想避免计算两次,因为矩阵ix非常大。 如果你能告诉我如何同时…


machine learning - 如何解读scikit的学习困惑矩阵和分类报告?

我有一个情绪分析的任务,因为我使用这个语料库的意见有5个类( very neg,neg,neu,pos,very pos),从1到5.所以我做的分类如下: from sklearn.feature_extraction.text import TfidfVectorizer import numpy as np tfidf_vect= TfidfVectorizer(use_id…


python 2.7 - Scikit-Learn在训练/测试分割之前或之后进行一次热编码

我正在研究使用scikit-learn构建模型的两种情况,我不知道为什么其中一个返回的结果与另一个根本不同。 这两种情况(我知道的)唯一不同的是,在一种情况下,我对所有分类变量都进行一次热编码(整个数据),然后在训练和测试之间进行分割。 在第二种情况下,我将训练和测试分开,然后根据训练数据对两组进行一次热编码。 后一种情况在技术上更好地判断过程的泛化误差,但是与第一种情况相比,这种情况正在返回…




learn包 sklearn learn stable org http documentation github learn是什么 fit