怎么使用NLTK库简化文本

NLTK

小亿

118

2024-05-11 19:00:56

栏目: 编程语言

使用NLTK库简化文本的方法包括：

分词：使用NLTK库的分词功能可以将文本分割成单词或短语，使得文本处理更加方便。

from nltk.tokenize import word_tokenize
text = "This is a sample sentence."
tokens = word_tokenize(text)
print(tokens)

去除停用词：NLTK库提供了停用词列表，可以通过去除这些常见词语来简化文本。

from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)

词形归并：NLTK库提供了词形归并器，可以将单词还原成原型。

from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(word) for word in filtered_tokens]
print(lemmatized_tokens)

词频统计：NLTK库提供了频率分布类，可以用于统计文本中单词的出现频率。

from nltk import FreqDist
freq_dist = FreqDist(lemmatized_tokens)
print(freq_dist.most_common(5))

通过以上方法，可以使用NLTK库简化文本并进行文本处理分析。

怎么使用NLTK库简化文本

最新问答

相关标签