数组词-【算法】利用文档-词项矩阵实现文本数据结构化 – 请使用正版授权-盗版主题后果自负-授权购买官网-ritheme.com

“词袋模型”一词源自“Bag of words”，简称 BOW ，是构建文档-词项矩阵的基本思想。对于给定的文本，可以是一个段落数组词，也可以是一个文档，该模型都忽略文本的词汇顺序和语法、句法，假设文本是由无序、独立的词汇构成的集合，这个集合可以被直观的想象成一个词袋，袋子里面就是构成文本的各种词汇。例如，文本内容为“经济发展新常态研究”的文档，用词袋模型可以表示为[经济，发展，新常态，研究]四个独立的词汇。词袋模型对于词汇的独立性假设，简化了文本数据结构化处理过程中的计算，被广泛采用，但是另一方面，这种假设忽略了词汇之间的顺序和依赖关系，降低了模型对文本的代表性。

“文档-词项矩阵”一词源自“Document-Term Matrix”，简称 DTM，DTM 矩阵转置后即为 TDM。我们在第一章简单介绍过文档-词项矩阵的构成，直观来看，矩阵的行代表文档，列代表词汇，矩阵元素即为文档中某一词汇出现的次数。例如，有以下两个文档：文档一[经济，发展，新常态，研究]，文档二[大数据，安全，隐私，保护]，基于这两个文档构造一个词典：{1:”经济”, 2. “发展”, 3. “新常态”, 4. “研究”, 5. “大数据”, 6. “安全”, 7. “隐私”，8. “保护”}，这个词典一共包含 8 个不同的词汇，利用词典的索引号，上面两个文档都可以用一个 8 维的向量表示：（1,1, 1,1,0,0,0,0）和（0,0,0,0,1,1,1,1），向量元素表示对应维度的词汇在文档中出现的次数数组词，两个向量合并在一起即得到文档-词项矩阵。

虽然文档-词项矩阵没有考虑到词汇之间的依存关系，但是这一简单假设也大大简化了后续文本挖掘的计算过程，利用结构化处理的文档-词项矩阵已经可以实现很多有意义的分析过程，如计算文档之间的相关性、文本分类、文本聚类等等。

利用 scikit-learn 库构建文档-词频矩阵

除了常用的机器学习算法外，scikit-learn 库还提供了很多数据结构化处理的工具，将这类结构化处理统称为“Feature Extraction”，即“特征抽取”，文本中的词汇出现的次数就属于“特征”中的一种。通过 sklearn.feature_extraction 包实现相关操作，该包包括从文本和图像中进行特征抽取的方法。

1 sklearn.feature_extraction.text.CountVectorizer

sklearn.feature_extraction.text 是 sklearn.feature_extraction 包中进行文本数据结构化处理的模块，其中定义的 CountVectorizer 类可以同时实现分词处理和词频统计，并得到文档-词频矩阵。实例化方式为：实例=CountVectorizer(input=u’content’, encoding=u’utf-8′, decode_error=u’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=u'(?u)bww+b’, ngram_range=(1, 1), analyzer=u’word’, max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=)

参数说明：

数组词组词语_数组词_数组词多音字