python中什么是Unicode文本标准化

发布时间：2021-07-10 11:13:35 阅读：216 作者：chen 栏目：大数据

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

本篇内容介绍了“python中什么是Unicode文本标准化”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

最近遇到unicodedata模块，才知道它的一个应用。某些字符能够用多个合法的编码表示，这就会导致一些问题。

如一个字符ñ既可以使用\u00f1，也可以使用n\u0303表示，如下所示：

In [2]: '\u00f1'                                                                                                                 Out[2]: 'ñ'In [3]: 'n\u0303' # 注意前面有个字符n                                                                            Out[3]: 'ñ'

原因是第一种表示\u00f1为整体表示法，第二种n\u0303为组合表示法，是n和字符~的组合字符。

很显然，在需要比较字符串的程序中，使用像上面字符的多种表示法会产生问题，如下所示：

In [4]: s1='\u00f1'                                                            In [5]: s2='n\u0303'                                                            In [6]: s1==s2                                                                 Out[6]: False

我们期望上面的字符ñ在两种表示下是相等的，这就需要使用unicodedata模块，将这些字符标准化：

s1='\u00f1' s2='n\u0303't1 = unicodedata.normalize('NFC', s1)t2 = unicodedata.normalize('NFC', s2)In [25]: t1==t2                                                                Out[25]: True

normalize() 第一个参数指定字符串标准化的方式。NFC表示字符应该是整体组成，还有其他标准化方法如NFD，上面的字符n和 \u0303 的组合n\u0303，就是NFD表示法。

埃格斯特朗符号 Å，在NFC中总是被代换成在视觉上相同的U+00C5（Å –在上方带环的A）。在NFD中，则会换成由U+0041（A) 和U+030A（°）这两个字符所组成的序列。

标准化对于任何需要以一致的方式处理Unicode文本的程序，正规化是很重要，因为它影响了比较、搜索和排序的意义。

“python中什么是Unicode文本标准化”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站，小编将为大家输出更多高质量的实用文章！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

python中什么是Unicode文本标准化

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签