Python中unicode和utf8是什么

发布时间：2021-11-25 13:45:30 阅读：269 作者：小新栏目：大数据

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要介绍了Python中unicode和utf8是什么，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

中文乱码、unicode和utf8

编码演化史

ASCII编码

在很久很久以前，美国人发明了计算机，计算机只能处理数字也就是把文字转换为8个bit也就是一个字节，8个bit最大能表示的数字为255，而[A-Z]、[a-z]、[0-9]再加上键盘上的一些符号正好255个，所以ASCII编码就成为了美国人的标准编码(用一个字节代表一个字母或者符号)，正好也满足了美国人的需求。

GB2312

有了上面的情况，我大中国表示不服，我们中国汉字博大精深，255个明显是满足不了我们的需求的，于是我们就发明了GB2312编码(用两个字节表示汉字)，不仅包含了ASCII码还能表示我们的中国的汉字，于是有了我们中国的例子，世界各国纷纷研究出了支持自己语言的编码，在这种情况下多种语言混合显示就出现了乱码的情况了，对于这种情况就出现了unicode编码将所有语言统一到一起。

unicode

unicode编码的出现解决了多国语言展示乱码的问题，但是unicode的解决方案在全英文文档展示的情况下，unicode编码会比ASCII编码多一倍的存储空间(unicode的编码是16bit的，在表示ASCII编码时是直接在前面加上8个0)相应的在传输的时候就多了一倍的传输时间，在这种情况下就出现了UTF8编码。

UTF8

UTF8编码相比于8bit的ASCII编码和16bit的unicode编码来说，UTF8编码是不定长的，它可以使用两个字节代表英文，用三个字节代表中文，UTF8这个时候优势就很大了，在实际运用中，我们可以将文件编码互相转换以获取最大化的利用内存，把文件保存在内存中我们采用内存占用更小的UTF8编码的格式，读写文件时我们采用更大更全的unicode编码，具体实例图如下：

代码演示

Python2.7

windows

在python2.7中当要将字符串encode为utf8，我们需要确保之前的字符串的编码方式为unicode，所以当字符串编码不为unicode时，我们需要使用decode方法，而在使用decode方法时我们需要指明原有字符串的编码格式(在windows系统中解释器默认编码为GB2312，Linux系统中为UTF-8编码)，所以就有了 s.decode("gb2312").encode("utf-8")。