UTF-8 是什么?

封面是从少数派首页 HTML 的一个截图。UTF-8 已经深入了互联网的各个角落。

无论是冲浪已久的老网民,还是资深老练的程序员,想必都听过了解过 UTF-8 这个名词——这玩意儿事实上是一种 Unicode字符集的编码,当然,如果你没有听说过,完全没有关系,因为这篇小文就是要讲清楚这些的是什么的。

从一开始

学习一个新的东西,首先要搞清楚它的名词概念,我们从上一段稍微做一个提取

  • 编码
  • Unicode
  • UTF-8

但是事实上还是不够的,所以我又加了几个

好了,名词都提取出来了,那我们下一步就是一步步地分析各个名词是什么意思

二进制

这里是百度百科的解释,挺官方的,就直接贴出来。

这里谈一点自己的理解,大家都知道十进制吧,二进制同理,只是「逢十进一」和「逢二进一」区别罢了。

那么为什么要特地弄出一个二进制呢?

是为了方便电路板的逻辑电路表示状态,对于一个逻辑电路来说,一个时刻只会有 3 2 个状态

  • 高电平
  • 低电平
  • 停电

所以说,如果使用二进制的话,对于数据传输来说会带来很大的方便——用 0,1 编码的话只需要高低电平就行了。

字节

同样的,这里分为两个信息源,一个是百度百科,一个是我的理解。

字节这个东西,说白了就是 8 个框,每个框放一个上面所说的二进制,如下图

框 0框 1框 2框 3框 4框 5框 6框 7
10101001

对于每个框,都可以放置 0 或者 1,然后计算一下大小——即 2^8 = 256,这个 256 ,即全部 0,1 组合的可能性。

那「字节」有什么用呢?

这玩意儿是你们常常所说的「内存」的最小单元,我们常常说内存有多少多少 G,事实上是指「多少 G 个字节」,所以这里再列一下单位公式

单位多大
K2^10
M2^20
G2^30
T2^40
P2^50

而在我们一般把字节缩写为 B,所以 KB 就是 1024 个字节,其他以此类推。

ASCII 编码

说了这么多,先接触一下最古老的但是十分有用的编码——ASCII 吧。

直接贴一下百度百科,再讲讲自己的见解。

编码,说白了就是「用数字映射字符」,即 1 代表了什么字符,2 代表了什么字符等等。而 ASCII 码,则是最简单的字符编码,没有之一。这个编码只有 128 个映射,值域覆盖了常用的「控制字符」、「数字」、「字母」和「标点符号」。

可以参考一下下面的

字符串

好了好了,基础的东西要打完了,下面讲一点和主题有点关系的东西。

所谓字符串,就是上面所说的字节的数组,并以 \0 结尾的一个东西。所谓 \0 就是一个字节,这个字节里的所有「框」都是 0,或者说,就是 ASCII 编码的第一个字符 NULL,那么 \0 可以起到什么作用呢?「字符串边界警示」——就是告诉程序「这个字符串已经到头了,别再继续读下去了!」。

举个例子

字节字节字节字节字节字节
ABCDE\0

这是一个 6 个字节的字符串,以 \0 结尾。

编码

之前已经在 ASCII 编码描述过了,即「用数字映射字符」的一个概念。这里就不多累述了。

Unicode

Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。——摘自 Unicode-Wikipedia

即一个字符集标准,而 UTF-8 则是这个标准的一个实现。

UTF-8

终于进入了主题。下面详细的解释一下 UTF-8 的编码规则。

首先 UTF-8 是变长的,也就是说,它可以是 1 个字节(向下兼容 ASCII,向下兼容十分重要,有多重要?可以参考 Windows 为了兼容性,牺牲了便捷性,带来了庞大体积),也可以是多个字节(反正小于等于 8 个字节),常用的例如汉字,则大部分被编码到了 3 字节范围内,2 字节多是拉丁语,更多则可能是 emoji(4 字节) 等等。

那么既然它是变长的,那应该怎么知道它是几个字节呢?方法如下所述

  • if 单字节: 首位为 0
  • if n 字节: 首位为 1*n+0,其他位的前导为 10

具体看表,更多字节以此类推

字节数第一个字节第二个字节第三个字节第四个字节
10xxxxxxx
2110xxxxx10xxxxxx
31110xxxx10xxxxxx10xxxxxx
411110xxx10xxxxxx10xxxxxx10xxxxxx

验证

编码的问题解决了,那么怎么具体上机验证呢?

所以这里写了一个小程序,编译之后可以直接打印出 1-4 个字节的 UTF-8 编码。如果需要保存到文件,可以用 IO 重定向去实现(这里不多累述了)。

地址在这

喜欢的话可以给个 Star 鼓励一下啦! :-)

最后

祝大家研究愉快!

;-)