UTF-8 从入门到略懂

UTF-8 是什么？

封面是从少数派首页 HTML 的一个截图。UTF-8 已经深入了互联网的各个角落。

无论是冲浪已久的老网民，还是资深老练的程序员，想必都听过了解过 UTF-8 这个名词——这玩意儿事实上是一种 Unicode字符集的编码，当然，如果你没有听说过，完全没有关系，因为这篇小文就是要讲清楚这些的是什么的。

从一开始

学习一个新的东西，首先要搞清楚它的名词概念，我们从上一段稍微做一个提取

编码
Unicode
UTF-8

但是事实上还是不够的，所以我又加了几个

二进制
字节
ASCII 码
字符串
神秘编码

好了，名词都提取出来了，那我们下一步就是一步步地分析各个名词是什么意思

二进制

这里是百度百科的解释，挺官方的，就直接贴出来。

这里谈一点自己的理解，大家都知道十进制吧，二进制同理，只是「逢十进一」和「逢二进一」区别罢了。

那么为什么要特地弄出一个二进制呢？

是为了方便电路板的逻辑电路表示状态，对于一个逻辑电路来说，一个时刻只会有 3 2 个状态

高电平
低电平
停电

所以说，如果使用二进制的话，对于数据传输来说会带来很大的方便——用 0,1 编码的话只需要高低电平就行了。

字节

同样的，这里分为两个信息源，一个是百度百科，一个是我的理解。

字节这个东西，说白了就是 8 个框，每个框放一个上面所说的二进制，如下图

框 0	框 1	框 2	框 3	框 4	框 5	框 6	框 7
1	0	1	0	1	0	0	1

对于每个框，都可以放置 0 或者 1，然后计算一下大小——即 2^8 = 256，这个 256 ，即全部 0,1 组合的可能性。

那「字节」有什么用呢？

这玩意儿是你们常常所说的「内存」的最小单元，我们常常说内存有多少多少 G，事实上是指「多少 G 个字节」，所以这里再列一下单位公式

单位	多大
K	2^10
M	2^20
G	2^30
T	2^40
P	2^50

而在我们一般把字节缩写为 B，所以 KB 就是 1024 个字节，其他以此类推。

ASCII 编码

说了这么多，先接触一下最古老的但是十分有用的编码——ASCII 吧。

直接贴一下百度百科，再讲讲自己的见解。

编码，说白了就是「用数字映射字符」，即 1 代表了什么字符，2 代表了什么字符等等。而 ASCII 码，则是最简单的字符编码，没有之一。这个编码只有 128 个映射，值域覆盖了常用的「控制字符」、「数字」、「字母」和「标点符号」。

可以参考一下下面的表

字符串

好了好了，基础的东西要打完了，下面讲一点和主题有点关系的东西。

所谓字符串，就是上面所说的字节的数组，并以 \0 结尾的一个东西。所谓 \0 就是一个字节，这个字节里的所有「框」都是 0，或者说，就是 ASCII 编码的第一个字符 NULL，那么 \0 可以起到什么作用呢？「字符串边界警示」——就是告诉程序「这个字符串已经到头了，别再继续读下去了！」。

举个例子

字节	字节	字节	字节	字节	字节
A	B	C	D	E	`\0`

这是一个 6 个字节的字符串，以 \0 结尾。

编码

之前已经在 ASCII 编码描述过了，即「用数字映射字符」的一个概念。这里就不多累述了。

Unicode

Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。——摘自 Unicode-Wikipedia

即一个字符集标准，而 UTF-8 则是这个标准的一个实现。

UTF-8

终于进入了主题。下面详细的解释一下 UTF-8 的编码规则。

首先 UTF-8 是变长的，也就是说，它可以是 1 个字节(向下兼容 ASCII，向下兼容十分重要，有多重要？可以参考 Windows 为了兼容性，牺牲了便捷性，带来了庞大体积)，也可以是多个字节(反正小于等于 8 个字节)，常用的例如汉字，则大部分被编码到了 3 字节范围内，2 字节多是拉丁语，更多则可能是 emoji(4 字节) 等等。

那么既然它是变长的，那应该怎么知道它是几个字节呢？方法如下所述

if 单字节: 首位为 0
if n 字节: 首位为 1*n+0，其他位的前导为 10

具体看表，更多字节以此类推

字节数	第一个字节	第二个字节	第三个字节	第四个字节
1	0xxxxxxx
2	110xxxxx	10xxxxxx
3	1110xxxx	10xxxxxx	10xxxxxx
4	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

验证

编码的问题解决了，那么怎么具体上机验证呢？

所以这里写了一个小程序，编译之后可以直接打印出 1-4 个字节的 UTF-8 编码。如果需要保存到文件，可以用 IO 重定向去实现(这里不多累述了)。

地址在这。

喜欢的话可以给个 Star 鼓励一下啦！ :-)

最后

祝大家研究愉快！

;-)