本篇内容介绍了“python中什么是Unicode文本标准化”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
最近遇到unicodedata
模块,才知道它的一个应用。某些字符能够用多个合法的编码表示,这就会导致一些问题。
如一个字符ñ
既可以使用\u00f1
,也可以使用n\u0303
表示,如下所示:
In [2]: '\u00f1'
Out[2]: 'ñ'
In [3]: 'n\u0303' # 注意前面有个字符n
Out[3]: 'ñ'
原因是第一种表示\u00f1
为整体表示法,第二种n\u0303
为组合表示法,是n
和字符~
的组合字符。
很显然,在需要比较字符串的程序中,使用像上面字符的多种表示法会产生问题,如下所示:
In [4]: s1='\u00f1'
In [5]: s2='n\u0303'
In [6]: s1==s2
Out[6]: False
我们期望上面的字符ñ
在两种表示下是相等的,这就需要使用unicodedata
模块,将这些字符标准化:
s1='\u00f1'
s2='n\u0303'
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
In [25]: t1==t2
Out[25]: True
normalize()
第一个参数指定字符串标准化的方式。NFC表示字符应该是整体组成,还有其他标准化方法如NFD
,上面的字符n
和 \u0303
的组合n\u0303
,就是NFD表示法。
埃格斯特朗符号 Å
,在NFC中总是被代换成在视觉上相同的U+00C5(Å –在上方带环的A)。在NFD中,则会换成由U+0041(A) 和U+030A(°)这两个字符所组成的序列。
标准化对于任何需要以一致的方式处理Unicode文本的程序,正规化是很重要,因为它影响了比较、搜索和排序的意义。
“python中什么是Unicode文本标准化”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。