python的字符转换常见bug

发布时间：2020-07-30 10:32:11 阅读：2290 作者：小止1995 栏目：建站服务器

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

1.python把一个unicode字符串写入文件为什么会报错？

write方法的参数类型是str，str是二进制流（不包含编码信息），当你给出一个unicode对象时，会执行str函数转换成str类型再送给write方法。unicode转str包含一次编码，如不指定则默认使用ascii编码，而ascii编码集里汉字字符是没有对应的，所以报错。

正确做法是在代码里指定编码。比如在open里指定（fp= open('test.txt', 'w', encoding='utf-8')），或者在write的时候手动把unicode对象通过encode方法指定编码产生str。就是说写成fp.write(s.encode('utf8'))。注意unicode对象用encode是有意义的，str对象在py2里允许你对str对象使用encode，然而这是对指定了default encoding的情况下才有效的，因此不推荐新手对str直接encode。

2.Error：UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\u200e’ in position 43: illegal multibyte sequence

原来出现’gbk’ codec can’t encode”的错误的根本原因是，对于前面的，不论是用

titleHtml.decode(“UTF-8”);

还是titleHtml.decode(“UTF-8”, ‘ignore’);

还是titleHtml.decode(“UTF-8”, ‘replace’);

都是可以得到正常的titleUni的Unicode字符的，然后对于此Unicode的字符，需要print出来的话，由于本地系统是Win7中的cmd，默认codepage是CP936，即GBK的编码，所以需要先将上述的Unicode的titleUni先编码为GBK，然后再在cmd中显示出来，然后由于titleUni中包含一些GBK中无法显示的字符，导致此时提示“’gbk’ codec can’t encode”的错误的。

对于此（类）问题：

(1)出现UnicodeEncodeError –> 说明是Unicode编码时候的问题；

(2) ‘gbk’ codec can’t encode character –> 说明是将Unicode字符编码为GBK时候出现的问题；

此时，往往最大的可能就是，本身Unicode类型的字符中，包含了一些无法转换为GBK编码的一些字符。

解决办法是：

方案1：

在对unicode字符编码时，添加ignore参数，忽略无法无法编码的字符，这样就可以正常编码为GBK了。

对应代码为：

gbkTypeStr = unicodeTypeStr.encode(“GBK“, ‘ignore’);

方案2：

或者，将其转换为GBK编码的超集GB18030 （即，GBK是GB18030的子集）：

gb18030TypeStr = unicodeTypeStr.encode(“GB18030“);

对应的得到的字符是GB18030的编码。

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

python的字符转换常见bug

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签