怎么在python中提取文本信息?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开发;5、游戏开发;6、桌面应用开发。
1、信息提取
先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。
def ie_preprocess(document): # nltk 默认的句子分段器 sentences = nltk.sent_tokenize(document) # nltk默认分词器 sentences = [nltk.word_tokenize(sent) for sent in sentences] # nltk默认词性标记 sentences = [nltk.pos_tag(sent) for sent in sentences]
2、词块划分
词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。
如Noun Phrase Chunking(名词短语词块划分)
使用正则表达式来定义一个语法,来进行名词短语词块的划分
3、开发和评估词块划分器
分区器可以用evaluate()方法评价分区器的性能好坏。
以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。
# 使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。 class UnigramChunker(nltk.ChunkParserI): # constructor def __init__(self, train_sents): # 将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表 train_data = [[(t, c) for w, t, c in nltk.chunk.tree2conlltags(sent)] for sent in train_sents] # 训练一元分块器 # self.tagger = nltk.UnigramTagger(train_data) # 训练二元分块器 self.tagger = nltk.BigramTagger(train_data) # sentence为一个已标注的句子 def parse(self, sentence): # 提取词性标记 pos_tags = [pos for (word, pos) in sentence] # 使用标注器为词性标记 标注IOB词块 tagged_pos_tags = self.tagger.tag(pos_tags) # 提取词块标记 chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags] # 将词块标记与原句组合 conlltags = [(word, pos, chunktag) for ((word, pos), chunktag) in zip(sentence, chunktags)] # 转换成词块树 return nltk.chunk.conlltags2tree(conlltags)
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。