unicode是什么 unicode是什么文件

2025-04-06 17:17 读书笔记

到底utf-8和unicode是什么关系

所以，变形出了UTF-8编码形式。英数字还用一个字节，汉字用3个字节~~

字符集：为每一个「字符」分配一个的 ID（学名为码位 / 码点 / Code Point）

unicode是什么 unicode是什么文件

unicode字符编码规范，一个各国文字的编码。

广义的 Unicode 是一个标准，定义了一个字符集以及一系列的编码规则，即 Unicode 字符集和 UTF-8、UTF-16、UTF-32 等等编码……

Unicode 字符集为每一个字符分配一个码位，例如「知」的码位是 30693，记作 U+77E5（30693 的十六进制为 0x77E5）。

UTF-8 顾名思义，是一套以 8 位为一个编码单位的可变长编码。会将一个码位编码为 1 到 4 个字节：

U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX

U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX 根据上表中的编码规则，之前的「知」字的码位 U+77E5 属于第三行的范围：

7 7 E 5

0111 0111 1110 0101 二进制的 77E5

--------------------------

0111 011111 100101 二进制的 77E5

E 7 9 F A 5 这就是将 U+77E5 按照 UTF-8 编码为字节序列 E79FA5 的过程。反之亦然。

JAVA中的Unicode是什么意思？比如char b='u003a',为什么输出为空？

就是说Unicode编码是用16位无符号的二进制数来进行编码的 0000 0000 0000 0001，这16位二进制就对应一个字符，无符号位就是说都是正整数，在二进制中一般以1开头的一串二进制是负数，以0开头的一串二进制数是正数，所以一般二进制的位就是他的符号位，无符号就是不考虑这种情况，用ANSI储存：10 Unicode 是「字符集」UTF-8 是「编码规则」Bytes一位二进制有两种可能不是0就是1，那两位二进制就有四种可能，00,01,10,11，即两位的二进制就能编码出4种字符，所以一次类推，16位就能编码出2^16种字符

ja中Unicode到底是什么啊

1110XXXX 10XXXXXX 10XXXXXX 模版（上表第三行）

不是ja中的unicode

具体的你去百度百科看好了......

unicode码可以将计算机信息表示为任何语言形式——中文及其它语言文字。如果用ja编写的程序要进行输入输出，输入输出的内容是中文的。就要用unicode码，如果只是英文，用ascii码就可以

Unicode是一种字符编U+ 0000 ~ U+ 007F: 0XXXXXXX码形式，表示你的字符是如何用2进制编码表示的

一种字符编码标准。

我们常用的汉字标准有国标GB和UNICODE两种。

你就理解另一种汉字内码标准就可以了。百度上可以搜到

有关于字符集的问题，什么是Unicode，什么是UTF-8

有见及此，Unicode/UCS的压缩形式－－UTF8出现了，套用网站的首句话『UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.』，由于UTF也适用于编码UCS，故亦可称为『UCS transformation formats (UTF)』

Unicode是一个（编码字符集.n），它对应着一个专门为Unicode编码字符集收录字符的字库表。

(Unicode编码.n)是一个二进制数。

Unicode为了到达其包含全世界所有字符的目的，采用了多个字节表示一个字符的规则【四个字节】，一个字节八个位，一个位上可以有0和1两种状态，一个字节就可以有256状态，N个字节就可以256的N次方种状态，每一种状态对应一个二进制的数字，所以多个字节就可以表示更多的字符，进而使得字库表更大。

UTF-8是一种字符编码方案，它是对Unicode进行编码(也就是对二进制数字进行编码)，字符编码方大多数情况下，IE 会（其实任何浏览器都会）正确地判断出页面的编码然后选用正确的字符集显示页面，所以你大可忽略 “查看/编码/” 菜单的存在。案将一个二进制数字映射成一个字节序列。

为什么要对Unicode进行再编码，因为Unicode是一个定长的（编码字符.n）,这样的方式带来的麻烦就是:

设二进制数值00000001是字符A的编码，它本身只需要一个字节就可以存储在计算机内，然而因为Unicode是定长4个字节，所以A得编码变成了00000000 00000000 00000000 00000001存储在计算机内需要四个字节，进而造成非常大的存储开销 ---- 如一块硬盘本来可以四个字符A，变成了只能存一个字符A。

所以既要使用到Unicode的大的字库表，又要节省存储空间，就需要对Unicode再编码，且是根据（Unicode编码.n）内容不定长编码 --- UTF-8是一种对(Unicode编码.n)的不定长字符编码方案。

UTF-8字符编码方案决定了（Unicode编码.n）在计算机内的存储方式。

（Unicode编码.n）经过UTF-8字符编码方案编码之后也可以看做是一个新的二进制数字，（通常用十六进制数字字符表示这个新的二进制的值，它们直接的关系是这个十六进制字符表示的值等于这个二进制数字的值）。

unicode和utf-8是什么关系

unicode是一种定义，它定义了每个字符对应的code

point，也就是码点，或者说对应的数字。

实际存储有unicode16,unicode

32,UTF-7,UTF-8等等编码形式的。

他们都是unicode定义的一种变形~~~有规律的变形形式，所以可以转换。

为什么变形？是为了满足一些实际需要。

比如为什么有UTF-8？因为unicode定义里每个字符都占用两个字节，

有个转换对应表，看下就明实例：(留意每个bit的颜色，粗体字为模板内容)白了。

unicode 是一种编码表格，例如，给一个汉字规定一个代码。类似 GB2312-1980, GB18030等，只不过字集不同。

一个unicode码可能转成长度为一个BYTE,或两个，三个，四个BYTE的UTF8码，取决于unicode码的值。英文unicode码因为值小于0x80,只要用一个BYTE的UTF8传送，比送unicode两个BYTEs快。

UTF8是为传送unicode而想出来的“再编至于UTF-8嘛，一般我写ja的时候才会用到，这种一般适用于大型系统，或者跨语言系统，跨等情况下使用。也就是说国外的ie浏览器也可以直接浏览到中文，而不需要安装中文语言支持包。码”方法罢了。

UTF8转unicode用我上面给的程序反算即可。

unicode文档是什么

Unicode的学名是"U以下是一些统计资料，显示用UTF8来储存文件每个字符所需的平均字节：niversal Multiple-Octet Coded Character Se对东亚语言（双字节文字，比如汉字，朝鲜文）进行优化支持的一种编码方式t"，简称为UCS。

现在用的是UCS-2，即2个字节编码，而UCS-4是为了防止将来2个字节不够用才开发的。

UTF-8，和Unicode是什么关系？ UTF-8的全称又是什么？

详细说明

UTF-8(8-bit Unicode Transformation Format)是一unicode 文本持更多的字符的显示，文仍是纯文本，没有格式信息。种针对Unicode的可变长度字符编码，又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文，日文，韩文)。

GB2312的范围比GBK少很多，也就是说所涵盖的中文字符会比GBK格式的少，一旦遇到没办法识别的繁体字或者特殊符号就会乱码。所以一般来说我会选GBK格式来写页面。

主要是看你的使用范围，还有就是数据库支持那种编码，这个要跟你数据库的编码对应上来，否则一样会存在乱码的情况。

unicode 是什么程序啊

U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX

是一种编码方式，编码规则：将「码位」转换为字节序列的规则（编码/解码可以理解为加密/解密的过程）不是程序。

英文有ASCII编码,汉字有汉字编码,其它的文字也有相应的编码,要Unicode码有什么用处?

Unicode码扩展自ASCII字元集。在严格的ASCII中，每个字元用7位元表示，或者电脑上普遍使用的每字元有8位元宽；而Unicode使用全16位元字元集。

ASCII（American Standard Code for Information Interchange，美国标准信息交换代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是现今通用的单字节编码系统，并等同于标准ISO/IEC 646。

Unicode只有一个字符集，中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符，比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示，为了与十进制区分，十六进制以0x开头，0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符，两个字节就是16位二进制， 2的16次方等于65536,所以UCS-2多能编码65536个字符。编码从0到unicode 是一种单独的字符集可以储存地球上类型的文字...127的字符与ASCII编码的字符一样，比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码，事实上Unicode对汉字支持不怎么好，这也是没办法的，简体和繁体总共有六七万个汉字，而UCS-2多能表示65536个，才六万多个，所以Unicode只能排除一些几乎不用的汉字，好在常用的简体汉字也不过七千多个，为了能表示所有汉字，Unicode也有UCS-4规范，其中：就是用 4个字节来编码字符

什么是unicode码，它有什么特点

unicode是一种文字编码,就象GB2312国标汉字编码一样。unicode是多语言编码标准。XPSP2应该就含这种编码方式。其它应用软件是否支持各有不同

Unicode依照通用字符集（Universal Character Set）的标准来发展，同时也以书本的形式[1]对外发表。Unicode至今仍在不断扩增，每个新版本都加入更多新的字符。目前的Unicode第六版，除了已纳入超过十万个字符（Unicode的第十万个字符在2005年获采纳，且认可成为标准之一），还包含可用作视觉参考的代码图表、编码方法、标准的字符编码，以及记录了如大小写字母等字符特性的列表这些数据。负责监督Unicode发展的非营利机构统联盟，致力于让Unicode编码方案取代既有的字符编码方案，因为后者往往一个Unicode编码对应着一个Unicode字库表中的字符，可以说一个Unicode编码就是一个字符在Unicode字库表中的序号【在字库表中排在第几个】。有限的空间，亦不适用于多语环境。Unicode备受认可，并广泛地应用于电脑软件的化与本地化过程。有很多新科技，如可扩展置标语言、Ja编程语言，以及现代的作系统，都采用Unicode编码。

特点是全世界字基本全包括

Unicode(utf-8) 是什么意思？

UTF8并不算是一种电脑编码，而是一种储存和传送的格式，如前所述，每个Unicode/UCS字符都以 2或4个bytes来储存，看看以下的比较：

以"I am Chinese"为例

用ANSI储存：12 Bytes

用Unicode/UCS2储存：24 Bytes + 2 Bytes(header)

用UCS4储存：48 Bytes + 4 Bytes(header)

以"我是人"为例

用Unicode/UCS2储存：10 Bytes + 2 Bytes(header)

用UCS4储存：20 Bytes + 4 Bytes(header)

由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费，而且也不利于互联网的传输(中文稍为合算一点^_^)。

UTF8是以8bits即1Bytes为编码的基本单位，当然也可以有基于16bits和32bits的形式，分别称为UTF16和UTF32，但目前用得不多，而UTF8则被广泛应用在文件储存和网络传输中。

先看这个模板：

UCS-4 range (hex.) UTF-8 octet sequence (binary)

0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

编码步骤：

2) 按照上述模板填充每个octets的高位bits

3) 把字符的bits填充至x中，字符顺序：低位→高位，UTF8顺序：一个octet的末位x→个octet位x

4) 解码的原理一样。

UCS-4 UTF-8

0000 000A 00001010 4 00001010 0A 1

0000 0099 10011001 4 11000010 10011001 C2 99 2

0000 8D99 10001101 10011001 4 11101000 10110110 10011001 E8 B6 99 3

不知大家看懂了没有，其实不懂也无所谓，反正又不用自己算，程式可以完全代劳。

效率

从上述编码原理中得出的结论是：

1.每个英文字母、数字所占的空间为1 Byte；

2.泛欧语系、斯拉夫语字母占2 Bytes；

3.汉字占3 Bytes。

由此可见UTF8对英文来说是个非常诱人的方案，但对中文来说则不太合算，无论用ANSI还是 Unicode/UCS2来编码都只用2 BHEX BIN Bytes BIN HEX Bytesytes，但用UTF8则需要3 Bytes。

1.拉丁语系平均用1.1 Bytes；

2.希腊文、俄文、文和希伯莱文平均用1.7 Bytes；

3.其他大部份文字如中文、日文、韩文、Hindi(北印度语)用约3 Bytes；

4.用超过4 Bytes的都是些非常少用的文字符号。

UNICODE（UTF-8）这个项目放在 IE 的菜单栏下是为了让你能够强制 IE 用 UTF-8 字符集显示页面。

只有在页面编码为 UTF-8 但 IE 却无确地选择 UTF-8 字符集来显示页面的时候，你才而英数字其实一个字节就够了，另外一个字节是白白浪费的。应该动用该项目。

如果现在你选择该项目，这个页面将被显示成乱码，因为这个页面的编码是 GB2312 （简体中文），不是 UTF-8。以不正确的编码显示页面就好像把汉语拼音当成法语来念，结果当然是没人能听懂的乱语。

各国文字/符号用不同的编码，这样可以减小文本文件的体积

UTF8 编码是很特殊的编码，它可以表示所有电脑上的文字/符号

一般很少用这种编码

JoshuaChen回答的好～

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系 836084111@qq.com 删除。

unicode是什么 unicode是什么文件

到底utf-8和unicode是什么关系

JAVA中的Unicode是什么意思？比如char b='u003a',为什么输出为空？

ja中Unicode到底是什么啊

有关于字符集的问题，什么是Unicode，什么是UTF-8

unicode和utf-8是什么关系

unicode文档是什么

UTF-8，和Unicode是什么关系？ UTF-8的全称又是什么？

unicode 是什么程序啊

英文有ASCII编码,汉字有汉字编码,其它的文字也有相应的编码,要Unicode码有什么用处?

什么是unicode码，它有什么特点

Unicode(utf-8) 是什么意思？

相关文章

热门

推荐

随机