Python 编码转换与中文处理

Python 默认脚本文件都是 ANSCII 编码的,当文件 中有非 ANSCII 编码范围内的字符的时候就要使用" 编码指示 "来修正一个 module 的定义中,如果.py文件中包含中文字符(严格的说是含有非anscii字符),则需要在行或第二行指定编码声明: # -- coding=utf-8 -- 或者 #coding=utf-8

中文转unicode_中文转unicode编码软件中文转unicode_中文转unicode编码软件


中文转unicode_中文转unicode编码软件


其他的编码如:gbk、gb2312也可以;否则会出现:

先说一下python中的字符串类型,在python中有两种字符串类型,分别是 str 和 unicode ,他们都是basestring的派生类;

unicode 转为 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 转为 unicode,

如果直接执行s.encode('gb2312')会发生什么?

这里会发生一个异常:Python 会自动的先将 s 解码为 unicode ,然后再编码成 gb2312。因为解码是python自动进行的,我们没有指明解码方式,python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII,如果 s 不是这个类型就会出错。

拿上面的情况来说,我的 sys.defaultencoding 是 anscii,而 s 的编码方式和文件的编码方式一致,是 utf8 的,所以出错了:

对于这种情况,我们有两种方法来改正错误:

s = '中文'

s.decode('utf-8').encode('gb2312') ```

import sys

reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入

sys.setdefaultencoding('utf-8')

s'欢迎'tr = '中文'

str.encode('gb2312')

print open("Test.txt").read()

print open("Test.tFor i = 1 To kxt").read().decode("utf-8")

Traceback (most recent call last):

File "ChineseTest.py", line 3, in

print open("Test.txt").read().decode("utf-8")

UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in ition 0: illegal multibyte sequence

data = open("Test.txt").read()

data = data[3:]

print data.decode("utf-8")

s = "中文"

print unicode(s, "utf-8")

Traceback (most recent call last):

File "ChineseTest.py", line 3, in

s = unicode(s, "utf-8")

UnicodeDecodeError: 'utf8' codec can't decode bytes in ition 0-1: invalid data

s = "中文"

s = "中文"

print unicode(s, "cp936")

怎样讲string转换成unicode,请高手来 Ja SE

Code = CLng("&H" + Hex(AscW(StrConv(ChrW(Code), vbFromUnicode))))

:ja中字符串本python 中的 unicode 是让人很困惑、比较难以理解的问题. 这篇文章 写的比较好, utf-8是 unicode的一种实现方式,unicode、gbk、gb2312是编码字符集.来就是Unicode编码的,不用转换。如果要把含中文的文本内容转成Unicode编码值显示,可以用JDK自带的native2ascii命令。在JDK的bin目录下运行native2ascii.exe,输入中文文本回车就可以了。

unicode转码为中文,在iOS中怎么作

Code = Code1 256 + Code2

已知一个汉字的unicode码(例如-20319),可以通过以下方法得到该unicode码对应的汉字: 1,声明一个3字节长的字符数组,例如char a[3]; 2,对该数组赋值为char a[3]={unsigned(-20319)/256,unsigned(-20319)%256,0}; 3,输出直接为cout<import codecs

cmd命令怎样将Unicode字符转成文字

也就是说在读取一个文件的内容,或者从网络上读取到内容时,保持的对象为str类型;如果想把一个str转换成特定编码类型,需要把str转为Unicode,然后从unicode转为特定的编码类型如:utf-8、gb2312等。

这个问题有点儿含糊,Unicode字符太多了,并且它们都是文字,无所谓什么“转成”文字。

猜测你的“转成”意思是转换编码格式,即有Unicode编码转为ANSI编码(GBK编码属于这一体系),若是如此,你需要保证Unicode字符都是GBK支持的,要是包含什么彝族文字、文字就没法弄了,它们只能用Unicode来表示。

还有,如果原始编码格式不是UTF-16LE,就需要专门的转码工具了,简单的cmd不行,下面这个命令只能对付地把UTF-16LE(一般说的Unicode就是它)转换为ANSI风格。

type 文件1>文件2

其中:文件1i = i + 3就是用UTF16-LE编码存储的,新产生的文件2是ANSI编码。

这个问题有点儿含糊,Unicode字符太多了,并且它们都是文字,无所谓什么“转成”文字。

猜测你的“转成”意思是转换编码格式,即有Unicode编码转为ANSI编码(GBK编码属于这一体系),若是如此,你需要保证Unicode字符都是GBK支持的,要是包含什么彝族文字、文字就没法弄了,它们只能用Unicode来表示。

还有,如果原始编码格式不是UTF-16LE,就需要专门的转码工具了,简单的cmd不行,下面这个命令只能对付地把UTF-16LE(一般说的Unicode就是它)转换为ANSI风格。

type 文件1>文件2

其中:文件1就是用UTF16-LE编码存储的,新产生的文件2是ANSI编码。

如何用C++编程Unicode转中文

Public Function UnicodeEncode(bTemp As String, Optional BigEndian As Boolean = False) As Byte()

UNICODE 在C++里用wchar_t表示, 如: wchar_t wc = L'简' 而wchar_t在一些编译器里被定义为无符号短整形 short 所以if data[:3] == codecs.BOM_UTF8:UNICODE (一般情况下)就是一个整数. 可以这样定义一个wchar_t wchar_t wc2 = 31616; wcout<< wc << " " << wc2 << endl; 的结果就是输出两个 简. 只要脑子里想UNICODE (一般情况下)就是 unsigned short, 就会理解.

hex值转换Unicode

Code3 = ((Code And 4032&) 64&) + 128&

Unicode 文件 分 大端码(big-endian) 和小端码(little-endian)

8279 大端码, 7982 小端码

区分大端小端用 "BOM"

也就是文件开始的两个字节。如果会写 C 程序,

如果有BOM 改一下 "BOM",如// 编码互转果没有,加一下 "BOM":

0xFEFF 是大端

0xFFFE 是小端

把hex文件开始的两个字节改0xFFFE,其它不变即可。

u6211u559cu6b22u4f60u554a什么意思一

u6211u559cu6b22u4f60u554a意思是“我喜欢你啊”。

u6211u559cu6b22u4f60u554a是中文的unicode编码,中文是“我喜欢你啊正迹”,通常多是比较害羞的二次元女生用的语言。Unicode给每个字符提供了一个的数字,不论是什么平台,不论是什么程序,不论是什么语言。

在互联网高速发展的今天,Unicode担当更重要的角色,它比传统的字符编码更节省费用,使软件或者网站能够运用于不同的系统平台、语言和,而不需要重建,同时也保证了资料在不同系统中的完整性。

所以说你只要将中文转换为Unicode,任此闭何的人都能看到你想表达的真正意思,而不是乱strTotal(bNo + 1) = Code2码。

这是计算机科学领域里的一项业界标准,在这种语言环境下,不会再有语言的编码冲突,在同屏下,可以显示任何语言的内容,这就是Unicode的好处。

类似的还有:

在一起吧:u5728u4e00u8d77u542在str的文档中有这样的一句话:7、大猪蹄子:u5927u732au8e44u5b50

想你:u60f3u4f60u4e86、分手吧:u5206u624bu5427。

发送\u6211u1u4f60(翻译:我爱你)发送Máměrád(翻译:我喜欢你)发送Vocêémeubebê(翻译:你是我的宝贝)

chwillmitdirswim.【翻译】:我想和你在一起。DubistmeinSchatz.【翻译】:你是我的宝贝。manchi.【翻译】:思念你。

PHP如何把数组里的中文Unicode转换成Utf-8编码?

在python2里的确可以使用s.decode('gbk','ignore')之类的变成unicode。不过在python3里应该是这样子, s.encode('gbk','ignore')这样就变成了byte

最简单的:

$str = iconv("gbk", "utf-8//ignore", $str);

或者:

稍微解释一下 //ignore 的意思是转换不了的字符就忽略。建议把这个写上。否则遇到转换不了的字符会报错。gbk替换成你需要转换的编码就可以了。

可以使用mb_convert_encoding函就是将世界上所有的文字用2个字节统一进行举扒并编码。那样,像这样统一编码,2个字节就已经足够容纳世界上所有的语言的大部分文字了。数,把字符串从指定编码转到需要的编码。

字符串js字符串与Unicode编码怎么做互相转换

一.字符串转化为Unicode编码

//方法1:

var str = "u6211u662FunicodestrTmp(bNo) = Code And 255u7F16u7801";

str = eval("'" + str + "'");

str = unescape(str.replace(/u/g, "%u"));方法2:// 包装为JSON

var dataJSON = '{"Unicode编码": "'+ "u7F16" +'"}';

// 使用JSON工具转换

var objJSON = JSON.parse(dataJSON);

var unicode = objJSON["Unicode编码"];

console.log(unicode); // 中文全月空格//二.将汉字转化为 unicode编码

var str = "中文";

// 获取字符

var char0 = str.charAt(0);

cDim strTmp As Stringonsole.log(char0);// "中"

// 数字编码值

var code = str.charCodeAt(0);

var str0 = String.fromCharCode(code);

console.log(str0); // "中"

// 转为16进制数组

var code16 = code.toString(16);

// 变成字面量表示法

var ustr = "u"+code16;

console.log("unicode编码",ustr ); // "u4e2d"

临时用VB做了个抓取网页数据,但是网页返回的中文是unicode编码,怎么转为中文。

print unicode(s, "gbk")

Private Declare Function MultiByteToWideChar Lib "kernel32 " (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpMultiByteStr As Long, ByVal cchMultiByte As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long) As Long

Private Declare Function WideCharToMultiByte Lib "kernel32 " (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long, ByVal lpMultiByteStr As Long, ByVal cchMultiByte As Long, ByVal lpDefaultChar As Long, ByVal lpUsedDefaultChar As Long) As Long

Private Const CP_ACP = 0 ' default to ANSI code page

Private Const CP_UTF8 = 65001 ' default to UTF-8 code page

用strconv(.respconsole.log(code);// 20013onsebody,&H80)

iOS afnetworking 返回的中文变成了unicode格式,怎么转回来

strTotDim bNo As Longal(bNo) = Code1