1. 位 bit 最小的单元
字节 byte 机器语言的单位
1byte=8bits
1KB=1024byte
1MB=1024KB
1GB=1024MB
2. 二进制 binary
八进制 octal
十进制 decimal
十六进制 hex
3. 字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符 号,数字等。
字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。
字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一 个字符用多少字节表示等问题,则是由编码来决定的。计算机要 准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。
常见字符集的编码介绍
常见的字符集有:ASCII 字符集,GB2312 字符集,BIG5 字符集,GB18030 字符集, Unicode 字符集,下面一一介绍: 1. ASCII 字符集:
2. GB2312 字符集:
3. GBK 字符集:
4. BIG5 字符集:
5. GB18030 字符集:
6. ISO8859-1:拉丁码表。欧洲码表用一个字节的 8 位表示。
7. Unicode 字符集:
ANSI 字符集:ASCII 字符集,以及由此派生并兼容的字符集。 UTF-16 与 UTF-8:如“连通”两个字,在 UTF-16 中为:DE 8F 1A 90, 两个字节决定一个汉字;在 UTF-8 中则为:E8 BF 9E E9 80 9A,即 3 个字节决定一个字符。 当一个软件打开一个文本时,首先是要决定这个文本究竟是使用 哪种字符集的哪种编码保存的,软件一般采用三种方式来决定文本 的字符集和编码:检测文件头标识,提示用户选择,根据一定的规 则猜测。不同编码方式的开头字节如下: EF BB BF UTF-8 FF FE UTF-16,little endian FE FF UTF-16,big endian FF FE 00 00 UTF-32, little endian 00 00 FE FF UTF-32,big endian 注:endian 是指字节序,big endian(大尾)和 little endian(小 尾)是 CPU 处理多字节数的不同方式。例如“汉”的 unicode 编码 是 6C49,写到文件中,如果将 6C 写在前面就是 big endian,将 49 写在前面就是 little endian。
总结
从 ASCII,GB2312,GBK 到 GB18030,这些编码方法是向下兼容的,即同一 个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编 码中,英文和中文可以统一的处理。区分中文编码的方法是高字节的最高位不为 0。
计算机使用的缺省编码方式就是计算机的内码。有的中文 windows 的缺省内 码还是 GBK,可以通过 GB18030 升级包升级到 GB1030。不过相对 GBK 新增的字 符,普通人很难用到的,通常我们用 GBK 来指代中文 windows 内码。 GB2312 的原文是区位码,从区位码到内码,需要在高字节和低字节上分别 加上 A0。
本文由“云端木瓜”整理总结,转载请注明出处
This article from the "云端木瓜" finishing summary, reproduced please indicate the source.