UTF-8 是什么?
封面是从少数派首页 HTML 的一个截图。UTF-8 已经深入了互联网的各个角落。
无论是冲浪已久的老网民,还是资深老练的程序员,想必都听过了解过 UTF-8
这个名词——这玩意儿事实上是一种 Unicode
字符集的编码,当然,如果你没有听说过,完全没有关系,因为这篇小文就是要讲清楚这些的是什么的。
从一开始
学习一个新的东西,首先要搞清楚它的名词概念,我们从上一段稍微做一个提取
- 编码
- Unicode
- UTF-8
但是事实上还是不够的,所以我又加了几个
- 二进制
- 字节
- ASCII 码
- 字符串
- 神秘编码
好了,名词都提取出来了,那我们下一步就是一步步地分析各个名词是什么意思
二进制
这里是百度百科的解释,挺官方的,就直接贴出来。
这里谈一点自己的理解,大家都知道十进制吧,二进制同理,只是「逢十进一」和「逢二进一」区别罢了。
那么为什么要特地弄出一个二进制呢?
是为了方便电路板的逻辑电路表示状态,对于一个逻辑电路来说,一个时刻只会有 3 2 个状态
- 高电平
- 低电平
- 停电
所以说,如果使用二进制的话,对于数据传输来说会带来很大的方便——用 0,1 编码的话只需要高低电平就行了。
字节
同样的,这里分为两个信息源,一个是百度百科,一个是我的理解。
字节这个东西,说白了就是 8 个框,每个框放一个上面所说的二进制,如下图
框 0 | 框 1 | 框 2 | 框 3 | 框 4 | 框 5 | 框 6 | 框 7 |
---|---|---|---|---|---|---|---|
1 | 0 | 1 | 0 | 1 | 0 | 0 | 1 |
对于每个框,都可以放置 0 或者 1,然后计算一下大小——即 2^8 = 256
,这个 256 ,即全部 0,1 组合的可能性。
那「字节」有什么用呢?
这玩意儿是你们常常所说的「内存」的最小单元,我们常常说内存有多少多少 G,事实上是指「多少 G 个字节」,所以这里再列一下单位公式
单位 | 多大 |
---|---|
K | 2^10 |
M | 2^20 |
G | 2^30 |
T | 2^40 |
P | 2^50 |
而在我们一般把字节缩写为 B,所以 KB 就是 1024 个字节,其他以此类推。
ASCII 编码
说了这么多,先接触一下最古老的但是十分有用的编码——ASCII 吧。
直接贴一下百度百科,再讲讲自己的见解。
编码,说白了就是「用数字映射字符」,即 1 代表了什么字符,2 代表了什么字符等等。而 ASCII 码,则是最简单的字符编码,没有之一。这个编码只有 128 个映射,值域覆盖了常用的「控制字符」、「数字」、「字母」和「标点符号」。
可以参考一下下面的表
![](https://cdnfile.sspai.com/2018/04/19/aaeb67c1b1831c432191d6e31366b39a.jpg?imageView2/2/w/1120/q/40/interlace/1/ignore-error/1)
字符串
好了好了,基础的东西要打完了,下面讲一点和主题有点关系的东西。
所谓字符串,就是上面所说的字节的数组,并以 \0
结尾的一个东西。所谓 \0
就是一个字节,这个字节里的所有「框」都是 0,或者说,就是 ASCII 编码的第一个字符 NULL
,那么 \0
可以起到什么作用呢?「字符串边界警示」——就是告诉程序「这个字符串已经到头了,别再继续读下去了!」。
举个例子
字节 | 字节 | 字节 | 字节 | 字节 | 字节 |
---|---|---|---|---|---|
A | B | C | D | E | \0 |
这是一个 6 个字节的字符串,以 \0
结尾。
编码
之前已经在 ASCII 编码描述过了,即「用数字映射字符」的一个概念。这里就不多累述了。
Unicode
Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。——摘自 Unicode-Wikipedia
即一个字符集标准,而 UTF-8 则是这个标准的一个实现。
UTF-8
终于进入了主题。下面详细的解释一下 UTF-8 的编码规则。
首先 UTF-8 是变长的,也就是说,它可以是 1 个字节(向下兼容 ASCII,向下兼容十分重要,有多重要?可以参考 Windows 为了兼容性,牺牲了便捷性,带来了庞大体积),也可以是多个字节(反正小于等于 8 个字节),常用的例如汉字,则大部分被编码到了 3 字节范围内,2 字节多是拉丁语,更多则可能是 emoji(4 字节) 等等。
那么既然它是变长的,那应该怎么知道它是几个字节呢?方法如下所述
- if 单字节: 首位为 0
- if n 字节: 首位为 1*n+0,其他位的前导为 10
具体看表,更多字节以此类推
字节数 | 第一个字节 | 第二个字节 | 第三个字节 | 第四个字节 |
---|---|---|---|---|
1 | 0xxxxxxx | |||
2 | 110xxxxx | 10xxxxxx | ||
3 | 1110xxxx | 10xxxxxx | 10xxxxxx | |
4 | 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
验证
编码的问题解决了,那么怎么具体上机验证呢?
所以这里写了一个小程序,编译之后可以直接打印出 1-4 个字节的 UTF-8 编码。如果需要保存到文件,可以用 IO 重定向去实现(这里不多累述了)。
地址在这。
喜欢的话可以给个 Star 鼓励一下啦! :-)
最后
祝大家研究愉快!
;-)