sklearn的TfidfVectorizer类的中文处理
词频-逆文档频率用于评估一个词对一个文档集或语料库的某个文档的重要程度,用于提取文档的关键词。
分词
中文不比英文,词语之间有着空格的自然分割。我们首先要进行中文的分词处理,使得分词之间产生空格。这里采用著名的中文分词库jieba进行分词:
1 | import jieba |
TfidfVectorizer的参数说明
token_pattern
说明词汇表的入选单词的模式,默认值为r'(?u)\b\w\w+\b',匹配从开始到结尾至少两个字符的字符串为词汇表的入选单词(\b匹配单词的开始或结束,\w匹配字母或数字或下划线或汉字,参考链接:正则表达式30分钟入门教程),如果想让词汇表中出现一个字符的单词,应如下赋值。
1 | from sklearn.feature_extraction.text import TfidfVectorizer |
max_df/min_df
规定包含某词汇表的单词的文档频率的最大值或最小值,0-1的小数表示比例,整数表示包含该单词的最大或最小文档数量。不在文档频率范围内的单词不会进入词汇表。
1 | tfidf_model3 = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b", max_df=0.6).fit(document) |
比如“我”这个单词的文档频率为6/6=1,大于0.6,故不会进入词汇表
stop_words
表示不需要加入词汇表的语气词或连词
1 | tfidf_model4 = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b", max_df=0.6, stop_words=["是", "的"]).fit(document) |
“是”和“的”没有进入词汇表
vocabulary
直接设定词汇表
1 | tfidf_model5 = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b",vocabulary={"我":0, "呀":1,"!":2}).fit(document) |
tfidf(词频逆文档频率)计算方式:tfidf=tf*ln(D/(d+1)),D表示文档总数,d表示包含单词的文档数量,比如除了第一句,其余句子的“呀”的tfidf都是0,因为呀在其他句子里的词频都为0,呀在第一句中的词频是1/5=0.2,逆文频=ln(6/2)=1.1,乘起来等于0.55,我在第一句中的词频=1/5=0.2,逆文频=ln(6/7)=-0.15,乘起来等于-0.075(ln函数的计算方式:import numpy as np;y=np.log(x)),感叹号不会被TfidfVectorizer处理,所以感叹号的tfidf为0,很明显0.4^2+0.91^2约等于1,即TfidfVectorizer向量化后的都是标准化向量。但我之前算的(-0.075,0.55,0)标准化后为(0.14,0.99,0),(0.075*(math.sqrt(1/(0.075**2+0.55**2)))=0.13511320473331348, 0.55*(math.sqrt(1/(0.075**2+0.55**2)))=0.9908301680442989)
ngram_range
表示单词的多种组合也能进入词汇表
1 | tfidf_model6 = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b", ngram_range=(1,2), stop_words=["是", "的"]).fit(document) |
max_feature
限制使用词频top高的单词组成词汇表
1 | tfidf_model7 = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b", max_features=10, ngram_range=(1,2), stop_words=["是", "的"]).fit(document) |
参考链接:sklearn: TfidfVectorizer 中文处理及一些使用参数
创建于2023.2.13/0.20,修改于2023.3.15/15.27