python-2.7 - token_pattern - vectorizer.fit_transform



Scikit学习和计数矢量错误 (1)

您正在导入的scikit-learn尚未正确构建。 检查你的搜索路径:

python -c "import sys; print(sys.path)"

sklearn.__path__ (不知道这是可能的,如果导入sklearn失败)。 重新构建你现在想要导入的sklearn版本(如何做,取决于它是如何安装的,很可能是python setup.py build_ext -ipython setup.py install ),或者从搜索路径中删除它。

有谁知道这个ImportError是从哪里来的,以及如何解决它? 我正在从CSV文件中进行文本挖掘。 在这一点上,我只是试图标记文件中某些作业描述中的单词,然后矢量化和计算尺寸。 但是,我得到这个错误。 原始代码如下所示,以供您查看。 我试过卸载Anaconda并重新安装它以及所有的软件包。 这个代码在我的电脑(一个老的网关)上运行得非常好,但不能在我的Mac(2012)和Lion OSX上运行。

---------------------------------------------------------------------------
ImportError                               Traceback (most recent call last)
<ipython-input-49-7fcd55a48eba> in <module>()
----> 1 from sklearn.feature_extraction.text import CountVectorizer
      2 cv = CountVectorizer(lowercase=True)
      3 vector = cv.fit_transform(words).toarray()
      4 print vector.shape

//anaconda/lib/python2.7/site-packages/sklearn/__init__.py in <module>()
     35     # process, as it may not be compiled yet
     36 else:
---> 37     from . import __check_build
     38     from .base import clone
     39     __check_build  # avoid flakes unused variable error

ImportError: cannot import name __check_build


from nltk.tokenize import word_tokenize

为所有发布创建一个单词列表

words = []
for p in postList[:100]:
    temp = word_tokenize(p[2])
    temp2 = [w.lower() for w in temp]
    string = ''
    for w in temp2:
        string += w + ', '
    string = string[:-1]
    words.append(string)
print words

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(lowercase=True)
vector = cv.fit_transform(words).toarray()
print vector.shape




vectorization