Python 3 与 Javascript escape 传输确认保证数量科学方法和华语乱码消除方案

style=”font-family: "Microsoft YaHei"”>注意:近日已不推荐
escape 函数,推荐应用  encodeUTiggoIComponent
函数,当中措施更简单,只需举行U奥迪Q3L解码即可。

style=”font-family: "Microsoft YaHei"”>当然了,如下作品化解方案一样可行。

今日用Python的Bottle框架写个小web程序,在实行Ajax交互之时,前端则先用
JSON.stringify 来将类连串化,然后用escape()
函数将其编码,确定保证传输正确。

再基本上同盟上Jquery的$.ajax应该就足以了,或者是经验不足,即便编码之后的多寡依旧在
Python 中难以处理。

新兴稳步商量出一种艺术,在网上也意识了接近的办法,于是将其达成。

 

基本思路如下:

escape('你好世界ABC');
//返回 "%u4F60%u597D%u4E16%u754CABC"

那串字符串提交到Bottle后,笔者动用Python
的 urllib 进行解码,结果发现三个题材。。

>>> urllib.parse.unquote('%u4F60%u597D%u4E16%u754CABC')
'%u4F60%u597D%u4E16%u754CABC'
>>> 

这些字符串该是什么样子依然怎么体统,于是研商了一阵子,然后傻逼的意识,这些压根就早已不是UOdysseyL编码的字符了,无法用
unquote解了。。

Ajax,我们应当用
decode(‘UTF-8’)!

 

%uXXXX
是Javascript转成 Unicode 的规范。所以大家必须求使它成为 \uXXXX
的Unicode的行业内部情势

再正是Python中
unquote
只能对str举行U汉兰达L解码,所以这些是对Unicode编码的国语字符是力不从心解开的,那么小编就务须选拔decode(‘UTF-8’);

可是接到的字符又是str,不设有怎么样decode,唯有encode。后来查了出手册找到了个 urllib.parse.unquote_to_bytes
函数,可对Str实行U宝马X5L解码,并且重临 byte。

对的,要的正是以此,然后依照重返的byte,就足以对其选拔decode 。

于是乎小编就写了一个:

def load_json(value):
    value = value.replace('%u','\\u') #将%uxxxx 替换换 \uxxxx 这才可以进行utf-8解码
        byts = urllib.parse.unquote_to_bytes(value) #返回的 byte
    byts = byts.decode('UTF-8') # decode UTF-8 解码只能解开 \uXXXX 的Unicode 标准形式
    return json.loads(byts)

 并且做以下测试:

escape('{"value":[123,"你好世界ABC"]}')
//"%7B%22value%22%3A%5B123%2C%22%u4F60%u597D%u4E16%u754CABC%22%5D%7D"

 Python
Shell:

>>> load_json('%7B%22value%22%3A%5B123%2C%22%u4F60%u597D%u4E16%u754CABC%22%5D%7D')
{'value': [123, '你好世界ABC']}

 恭喜测试成功,看起来已经成功了。

总结:

那样的话,纵使再怎么着的字符,都会被Unicode编码。Javascript采取escape(别的也行)来对字符举行UTF-8编码,即便得到的是%uXXXX,可是你能够传化为
\uXXXX 的正儿八经方式。

与此同时纵然有些特别随意浏览器不会成为
%uXXXX,我们也只是 替换的%u,并不会影响其实的字符。

过程:

Javascript Object
-> JSON.stringify(obj) -> escape(json_str) ->
浏览器的机动U科雷傲L编码(任性除此而外) -> Python urllib U中华VL decode ->
%uXXXX 替换 \uXXXX -> decode(‘UTF-8’) -> json.load();

 

 

那只是有些经验之谈,假设有别的不当或更好之处,欢迎指正,向其深造,定当谢过。

 

相关文章