这篇文章主要介绍python3中utf-8编码转换的方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
utf-8编码将一个 unicode 字符编码成 1~6 个字节,常用的英文字母被编码成 1 个字节,汉字通常是 3 个字节,只有很生僻的字符才会被编码成 4~6 个字节。注意,从 unicode 到 utf-8 并不是直接的对应,而是通过一些算法和规则来转换的。
来看一下具体编码例子吧:
>>> list('中'.encode('utf-8')) [228, 184, 173] >>> list('a'.encode('utf-8')) [97]
可以看出,utf-8 将汉字 ‘中’ 编码成了三个字节,将英文字母 ‘a’ 编码成了一个字节,且 utf-8 编码兼容 ASCII 编码。
拓展:unicode 编码
为每种语言制定一套编码方式实在是太蠢了!为什么不能把所有语言的所有字符一起编码呢?
把所有语言统一到一套编码里,这套编码就是 unicode 编码。使用 unicode 编码,无论处理什么文本都不会出现乱码问题了。
unicode 编码使用两个字节(16 位 bit)表示一个字符,比较偏僻的字符需要使用 4 个字节。
但是新的问题又来了,如果一段纯英文文本,用 unicode 编码存储会比用 ASCII 编码多占用一倍空间!无论是存储还是传输都很浪费!
以上是python3中utf-8编码转换的方法的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。