unicode是什么 unicode是什么文件
到底utf-8和unicode是什么关系
所以,变形出了UTF-8编码形式。英数字还用一个字节,汉字用3个字节~~字符集:为每一个「字符」分配一个的 ID(学名为码位 / 码点 / Code Point)
unicode是什么 unicode是什么文件
unicode是什么 unicode是什么文件
unicode字符编码规范,一个各国文字的编码。
广义的 Unicode 是一个标准,定义了一个字符集以及一系列的编码规则,即 Unicode 字符集和 UTF-8、UTF-16、UTF-32 等等编码……
Unicode 字符集为每一个字符分配一个码位,例如「知」的码位是 30693,记作 U+77E5(30693 的十六进制为 0x77E5)。
UTF-8 顾名思义,是一套以 8 位为一个编码单位的可变长编码。会将一个码位编码为 1 到 4 个字节:
U+ 0080 ~ U+ 07FF: 110XXXXX 10XXXXXX
U+10000 ~ U+1FFFF: 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX 根据上表中的编码规则,之前的「知」字的码位 U+77E5 属于第三行的范围:
7 7 E 5
0111 0111 1110 0101 二进制的 77E5
--------------------------
0111 011111 100101 二进制的 77E5
E 7 9 F A 5 这就是将 U+77E5 按照 UTF-8 编码为字节序列 E79FA5 的过程。反之亦然。
JAVA中的Unicode是什么意思?比如char b='u003a',为什么输出为空?
就是说Unicode编码是用16位无符号的二进制数来进行编码的 0000 0000 0000 0001,这16位二进制就对应一个字符,无符号位就是说都是正整数,在二进制中一般以1开头的一串二进制是负数,以0开头的一串二进制数是正数,所以一般二进制的位就是他的符号位,无符号就是不考虑这种情况,用ANSI储存:10 Unicode 是「字符集」UTF-8 是「编码规则」Bytes一位二进制有两种可能不是0就是1,那两位二进制就有四种可能,00,01,10,11,即两位的二进制就能编码出4种字符,所以一次类推,16位就能编码出2^16种字符
ja中Unicode到底是什么啊
1110XXXX 10XXXXXX 10XXXXXX 模版(上表第三行)不是ja中的unicode
具体的你去百度百科看好了......
unicode码可以将计算机信息表示为任何语言形式——中文及其它语言文字。如果用ja编写的程序要进行输入输出,输入输出的内容是中文的。就要用unicode码,如果只是英文,用ascii码就可以
Unicode是一种字符编U+ 0000 ~ U+ 007F: 0XXXXXXX码形式,表示你的字符是如何用2进制编码表示的
一种字符编码标准。
一种字符编码标准。
我们常用的汉字标准有国标GB和UNICODE两种。
你就理解另一种汉字内码标准就可以了。百度上可以搜到
有关于字符集的问题,什么是Unicode,什么是UTF-8
有见及此,Unicode/UCS的压缩形式--UTF8出现了,套用网站的首句话『UTF-8 stands for Unicode Transformation Format-8. It is an octet (8-bit) lossless encoding of Unicode characters.』,由于UTF也适用于编码UCS,故亦可称为『UCS transformation formats (UTF)』Unicode是一个(编码字符集.n),它对应着一个专门为Unicode编码字符集收录字符的字库表。
(Unicode编码.n)是一个二进制数。
Unicode为了到达其包含全世界所有字符的目的,采用了多个字节表示一个字符的规则【四个字节】,一个字节八个位,一个位上可以有0和1两种状态,一个字节就可以有256状态,N个字节就可以256的N次方种状态,每一种状态对应一个二进制的数字,所以多个字节就可以表示更多的字符,进而使得字库表更大。
UTF-8是一种字符编码方案,它是对Unicode进行编码(也就是对二进制数字进行编码),字符编码方大多数情况下,IE 会(其实任何浏览器都会)正确地判断出页面的编码然后选用正确的字符集显示页面,所以你大可忽略 “查看/编码/” 菜单的存在。案将一个二进制数字映射成一个字节序列。
为什么要对Unicode进行再编码,因为Unicode是一个定长的(编码字符.n),这样的方式带来的麻烦就是:
设二进制数值00000001是字符A的编码,它本身只需要一个字节就可以存储在计算机内,然而因为Unicode是定长4个字节,所以A得编码变成了00000000 00000000 00000000 00000001存储在计算机内需要四个字节,进而造成非常大的存储开销 ---- 如一块硬盘本来可以四个字符A,变成了只能存一个字符A。
所以既要使用到Unicode的大的字库表,又要节省存储空间,就需要对Unicode再编码,且是根据(Unicode编码.n)内容 不定长编码 --- UTF-8是一种对(Unicode编码.n)的不定长字符编码方案。
UTF-8字符编码方案决定了(Unicode编码.n)在计算机内的存储方式。
(Unicode编码.n)经过UTF-8字符编码方案编码之后也可以看做是一个新的二进制数字,(通常用十六进制数字字符表示这个新的二进制的值,它们直接的关系是这个十六进制字符表示的值 等于 这个二进制数字的值)。
unicode和utf-8是什么关系
unicode是一种定义,它定义了每个字符对应的code
point,也就是码点,或者说对应的数字。
实际存储有unicode16,unicode
32,UTF-7,UTF-8等等编码形式的。
他们都是unicode定义的一种变形~~~有规律的变形形式,所以可以转换。
为什么变形?是为了满足一些实际需要。
比如为什么有UTF-8?因为unicode定义里每个字符都占用两个字节,
有个转换对应表,看下就明实例:(留意每个bit的颜色,粗体字为模板内容)白了。
unicode 是一种编码表格,例如,给一个汉字规定一个代码。类似 GB2312-1980, GB18030等,只不过字集不同。
一个unicode码可能转成长度为一个BYTE,或两个,三个,四个BYTE的UTF8码,取决于unicode码的值。英文unicode码因为值小于0x80,只要用一个BYTE的UTF8传送,比送unicode两个BYTEs快。
UTF8是为传送unicode而想出来的“再编至于UTF-8嘛,一般我写ja的时候才会用到,这种一般适用于大型系统,或者跨语言系统,跨等情况下使用。也就是说国外的ie浏览器也可以直接浏览到中文,而不需要安装中文语言支持包。码”方法罢了。
UTF8转unicode用我上面给的程序反算即可。
unicode文档是什么
Unicode的学名是"U以下是一些统计资料,显示用UTF8来储存文件每个字符所需的平均字节:niversal Multiple-Octet Coded Character Se对东亚语言(双字节文字,比如汉字,朝鲜文)进行优化支持的一种编码方式t",简称为UCS。
现在用的是UCS-2,即2个字节编码,而UCS-4是为了防止将来2个字节不够用才开发的。
UTF-8,和Unicode是什么关系? UTF-8的全称又是什么?
详细说明UTF-8(8-bit Unicode Transformation Format)是一unicode 文本持更多的字符的显示,文仍是纯文本,没有格式信息。种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。
GB2312的范围比GBK少很多,也就是说所涵盖的中文字符会比GBK格式的少,一旦遇到没办法识别的繁体字或者特殊符号就会乱码。所以一般来说我会选GBK格式来写页面。
主要是看你的使用范围,还有就是数据库支持那种编码,这个要跟你数据库的编码对应上来,否则一样会存在乱码的情况。
unicode 是什么程序啊
U+ 0800 ~ U+ FFFF: 1110XXXX 10XXXXXX 10XXXXXX是一种编码方式,编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)不是程序。
英文有ASCII编码,汉字有汉字编码,其它的文字也有相应的编码,要Unicode码有什么用处?
Unicode码扩展自ASCII字元集。在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。
ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今通用的单字节编码系统,并等同于标准ISO/IEC 646。
Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2多能编码65536个字符。 编码从0到unicode 是一种单独的字符集 可以储存地球上类型的文字...127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,其中:就是用 4个字节来编码字符
什么是unicode码,它有什么特点
unicode是一种文字编码,就象GB2312国标汉字编码一样。unicode是多语言编码标准。XPSP2应该就含这种编码方式。其它应用软件是否支持各有不同Unicode依照通用字符集(Universal Character Set)的标准来发展,同时也以书本的形式[1]对外发表。Unicode至今仍在不断扩增,每个新版本都加入更多新的字符。目前的Unicode第六版,除了已纳入超过十万个字符(Unicode的第十万个字符在2005年获采纳,且认可成为标准之一),还包含可用作视觉参考的代码图表、编码方法、标准的字符编码,以及记录了如大小写字母等字符特性的列表这些数据。负责监督Unicode发展的非营利机构统联盟,致力于让Unicode编码方案取代既有的字符编码方案,因为后者往往一个Unicode编码对应着一个Unicode字库表中的字符,可以说一个Unicode编码就是一个字符在Unicode字库表中的序号【在字库表中排在第几个】。有限的空间,亦不适用于多语环境。Unicode备受认可,并广泛地应用于电脑软件的化与本地化过程。有很多新科技,如可扩展置标语言、Ja编程语言,以及现代的作系统,都采用Unicode编码。
特点是全世界字基本全包括
Unicode(utf-8) 是什么意思?
UTF8并不算是一种电脑编码,而是一种储存和传送的格式,如前所述,每个Unicode/UCS字符都以 2或4个bytes来储存,看看以下的比较:
以"I am Chinese"为例
用ANSI储存:12 Bytes
用Unicode/UCS2储存:24 Bytes + 2 Bytes(header)
用UCS4储存:48 Bytes + 4 Bytes(header)
以"我是人"为例
用Unicode/UCS2储存:10 Bytes + 2 Bytes(header)
用UCS4储存:20 Bytes + 4 Bytes(header)
由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费,而且也不利于互联网的传输(中文稍为合算一点^_^)。
UTF8是以8bits即1Bytes为编码的基本单位,当然也可以有基于16bits和32bits的形式,分别称为UTF16和UTF32,但目前用得不多,而UTF8则被广泛应用在文件储存和网络传输中。
先看这个模板:
UCS-4 range (hex.) UTF-8 octet sequence (binary)
0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx
编码步骤:
2) 按照上述模板填充每个octets的高位bits
3) 把字符的bits填充至x中,字符顺序:低位→高位,UTF8顺序:一个octet的末位x→个octet位x
4) 解码的原理一样。
UCS-4 UTF-8
0000 000A 00001010 4 00001010 0A 1
0000 0099 10011001 4 11000010 10011001 C2 99 2
0000 8D99 10001101 10011001 4 11101000 10110110 10011001 E8 B6 99 3
不知大家看懂了没有,其实不懂也无所谓,反正又不用自己算,程式可以完全代劳。
效率
从上述编码原理中得出的结论是:
1.每个英文字母、数字所占的空间为1 Byte;
2.泛欧语系、斯拉夫语字母占2 Bytes;
3.汉字占3 Bytes。
由此可见UTF8对英文来说是个非常诱人的方案,但对中文来说则不太合算,无论用ANSI还是 Unicode/UCS2来编码都只用2 BHEX BIN Bytes BIN HEX Bytesytes,但用UTF8则需要3 Bytes。
1.拉丁语系平均用1.1 Bytes;
2.希腊文、俄文、文和希伯莱文平均用1.7 Bytes;
3.其他大部份文字如中文、日文、韩文、Hindi(北印度语)用约3 Bytes;
4.用超过4 Bytes的都是些非常少用的文字符号。
UNICODE(UTF-8)这个项目放在 IE 的菜单栏下是为了让你能够强制 IE 用 UTF-8 字符集显示页面。
只有在页面编码为 UTF-8 但 IE 却无确地选择 UTF-8 字符集来显示页面的时候,你才而英数字其实一个字节就够了,另外一个字节是白白浪费的。应该动用该项目。
如果现在你选择该项目,这个页面将被显示成乱码,因为这个页面的编码是 GB2312 (简体中文),不是 UTF-8。以不正确的编码显示页面就好像把汉语拼音当成法语来念,结果当然是没人能听懂的乱语。
各国文字/符号用不同的编码,这样可以减小文本文件的体积
UTF8 编码是很特殊的编码,它可以表示所有电脑上的文字/符号
一般很少用这种编码
JoshuaChen回答的好~
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系 836084111@qq.com 删除。