本文小编为大家详细介绍“pycorrector怎么安装使用”,内容详细,步骤清晰,细节处理妥当,希望这篇“pycorrector怎么安装使用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。
pycorrector 主要解决以下的中文输入场景。
谐音字词,如 配副眼睛-配副眼镜。
混淆音字词,如 流浪织女-牛郎织女。
字词顺序颠倒,如 伍迪艾伦-艾伦伍迪。
字词补全,如 爱有天意-假如爱有天意。
形似字错误,如 高梁-高粱。
中文拼音全拼,如 xingfu-幸福。
中文拼音缩写,如 sz-深圳。
语法错误,如 想象难以-难以想象。
可以使用 pip 安装。
pip install pycorrector
也可以下载源码后手动安装。
git clone https://github.com/shibing624/pycorrector.gitcd pycorrectorpython setup.py install
依赖库kenlm安装。
pip install https://github.com/kpu/kenlm/archive/master.zip
其他依赖库包安装。
pip install -r requirements.txt
1.文本纠错
import pycorrectorcorrected_sent, detail = pycorrector.correct('少先队员因该为老人让坐')print(corrected_sent, detail)
output:少先队员应该为老人让座 [[('因该', '应该', 4, 6)], [('坐', '座', 10, 11)]]
规则方法默认会从路径~/.pycorrector/datasets/zh_giga.no_cna_cmn.prune01244.klm加载kenlm语言模型文件,如果检测没有该文件,则程序会自动联网下载。当然也可以手动下载模型文件(2.8G)并放置于该位置。
2.错误检测
import pycorrectoridx_errors = pycorrector.detect('少先队员因该为老人让坐')print(idx_errors)
output:[['因该', 4, 6, 'word'], ['坐', 10, 11, 'char']]
返回类型是list, [error_word, begin_pos, end_pos, error_type],pos索引位置以0开始。
读到这里,这篇“pycorrector怎么安装使用”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。