MYSQL(8.0版本及以上)- utf8,utf8mb3和utf8mb4的含义和由来

2024-07-14 1549阅读

文章目录

  • 一、utf8、utf8mb3、utf8mb4的区别
    • 1.1、差异比较

      官方文档:MySQL 8.0 Reference Manual: 10.9.2 The utf8mb3 Character Set (3-Byte UTF-8 Unicode Encoding)

      以下内容基于MySQL8.0进行讲解

      一、utf8、utf8mb3、utf8mb4的区别

      首先,上结论:

      • utf8mb3: utf8的别名,在MySQL中,实际只有utf8mb4和utf8mb3。至于uft8,在 V8.0 还是指代的utf8mb3,未来的会变为uft8mb4。
      • 国际上的UTF-8,在MySQL中,对标的是uft8mb4。

        译者注:mb3 maximun of 3 bytes per multibyte character.

        mb3每个多字节字符最多3个字节。

        国际上的UTF-8简介

        Java Unicode编码 及 Mysql utf8 utf8mb3 utf8mb4 的区别与utf8mb4的过滤 ——苍枫露雨


        UTF-8(8-bit Unicode Transformation Format) 是一种针对Unicode的可变长度字符编码,也是一种前缀码。它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容——这使得原来处理ASCII字符的软件无须或只须做少部分修改 即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或发送文字的应用中,优先采用的编码。


        UTF-8使用1~4个字节为每个字符编码(2003年11月UTF-8被RFC 3629重新规范,只能使用原来Unicode定义的区域,U+0000到U+10FFFF,也就是说最多四个字节):

        • 128个US-ASCII字符只需1个字节编码(Unicode范围由U+0000至U+007F)。
        • 带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要2个字节编码(Unicode范围由U+0080至U+07FF)。
        • 基本多文种平面/BMP, Basic Multilingual Plane:字符(这包含了大部分常用字,例如CJVK常用字字符集 —— Chinese, Japanese, Vietnam, Korean)使用3个字节编码(Unicode范围由U+0800至U+FFFF)。
        • Unicode 辅助平面/Supplementary Multilingual Plane:使用极少,字符使用4个字节编码(Unicode范围由U+10000至U+10FFFF,主要包括不常用的CJK字符, 数学符号, emoji表情等)。

          具体来讲是这样的:

          1.utf8

          由于Unicode字符集规定必须用两个字节,也就是16位-32位,那些只需一个字节的字符在互联网上进行传输的时候就会比较浪费网络带宽资源,于是出现了一些中间格式的字符集,被称为统一的转换格式(Unicode Transformation format),即UTF编码,UTF-8是针对Unicode的一种可变长度字符编码。

            一个英文字符在UTF-8编码中占一个字节, 一个汉字占三个字节。

          utf8 是 MySQL中的一种字符集,utf8是utf8mb3的别名,除此之外并无不同(如下图,MySQL官网已经给出说明)

          MYSQL(8.0版本及以上)- utf8,utf8mb3和utf8mb4的含义和由来

          (MySQL的)utf8是utf8mb3的别名:

          • MySQL里,utf8的(命名)是隐式的,等价于utf8mb3,但是但从名称上是看不出最大字符数的。

            好消息是MySQL在未来会改正uft8的命名:“在未来的MySQL版本中会删除utf8mb3,请改用utf8mb4。虽然utf8目前是utf8mb3的别名,但在未来某个时候,utf8将指代utf8mb4。为了避免对utf8的含义产生歧义,可以考虑直接把字符集引用指定为utf8mb4,而不是utf8。”

            2.uft8mb3:

            • 支持&仅且支持BMP characters(不支持补充字符(supplementary characters))
            • 每个multibyte-character,都不多于3个bytes

              MYSQL(8.0版本及以上)- utf8,utf8mb3和utf8mb4的含义和由来

              3.uft8mb4:

              • uft8mb4是utf8的超集并完全兼容它,是MySQL 在 5.5.3 版本之后增加的一个新的字符集,能够用四个字节存储更多的字符,几乎包含了世界上所有能看到见的语言字符。故utf8mb4才是我们真正意义上的utf8字符集
              • 支持BMP和补充字符。
              • 每个多字节字符最多需要四个字节。
              • 要想支持BMP characters + supplementary characters,既国际上的UTF-8/(4bytes),用uft8mb4(见官方文档 Section 10.9.1, “The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding)”)

                MYSQL(8.0版本及以上)- utf8,utf8mb3和utf8mb4的含义和由来

                1.1、差异比较

                差异点utf8mb3utf8mb4
                最大使用字节数34
                支持字符类型BMPBMP+其他补充字符
                字符类型常见的 Unicode 字符常见的 Unicode 字符 + 部分罕用汉字 + emoji表情 + 新增的 Unicode 字符等
                Unicode范围U0000 - U+FFFF(即BMP)U0000 - U+10FFFF
                占用存储空间略小(如CHAR(10) 需要10 * 3 = 30 个字节的空间;VARCHAR 类型需要额外使用1个字节来记录字符串的长度)稍大(如CHAR(10) 需要 10 * 4 = 40 个字节的空间;VARCHAR 类型需要额外使用2个字节来记录字符串的长度)
                兼容性切换至utf8mb4 一般不会有问题,但要注意存储空间够不够、排序规则是否变化切换至utf8mb3可能会有问题,字符丢失、报错或乱码
                安全性稍低,更容易被恶意字符串攻击较高,保留恶意字符串,然后报错或乱码提示

                如何选择?

                一句话就是,根据具体的业务需求和实际情况,选择最合适的字符集。


VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]