快速尝试:
hello, world
αβγδ
道可道非常道
𠮷
🍉🍇🍑🍓🥝

转化过程解析

Unicode
二进制
UTF-32

UTF-32使用固定的32位(4字节)编码每个Unicode字符,直接映射Unicode代码点,没有复杂的编码转换过程。

第1-4位
第5-8位

关于 UTF-32

UTF-32是一种Unicode编码方式,它使用固定长度的32位(4字节)来表示每个Unicode字符。 与UTF-8和UTF-16不同,UTF-32不使用可变长度编码,每个Unicode代码点都直接映射为一个32位整数。

UTF-32的特点

  • 固定长度:每个字符恒定使用4字节
  • 直接映射:代码点直接对应于存储值,无需复杂的编码/解码算法
  • 支持完整的Unicode范围:可表示所有Unicode字符(0 - 0x10FFFF)
  • 空间效率低:对于主要使用ASCII或BMP字符的文本,占用空间比UTF-8或UTF-16多
  • 处理效率高:由于固定长度,获取第N个字符的操作为O(1)

应用场景

  • 内部字符处理:许多文本处理库在内部使用UTF-32以简化字符操作
  • 需要随机访问字符的应用
  • 对存储空间要求不高但需要处理速度的场景

字节序(Byte Order)

UTF-32存在两种字节序格式:

  • UTF-32BE:大端字节序(Big Endian)
  • UTF-32LE:小端字节序(Little Endian)

文件可以以字节顺序标记(BOM)开头来指示使用的字节序。