Unicode 转 UTF-32
快速尝试:
转化过程解析
| Unicode |
|---|
| 二进制 |
| UTF-32 |
UTF-32使用固定的32位(4字节)编码每个Unicode字符,直接映射Unicode代码点,没有复杂的编码转换过程。
第1-4位
第5-8位
关于 UTF-32
UTF-32是一种Unicode编码方式,它使用固定长度的32位(4字节)来表示每个Unicode字符。 与UTF-8和UTF-16不同,UTF-32不使用可变长度编码,每个Unicode代码点都直接映射为一个32位整数。
UTF-32的特点
- 固定长度:每个字符恒定使用4字节
- 直接映射:代码点直接对应于存储值,无需复杂的编码/解码算法
- 支持完整的Unicode范围:可表示所有Unicode字符(0 - 0x10FFFF)
- 空间效率低:对于主要使用ASCII或BMP字符的文本,占用空间比UTF-8或UTF-16多
- 处理效率高:由于固定长度,获取第N个字符的操作为O(1)
应用场景
- 内部字符处理:许多文本处理库在内部使用UTF-32以简化字符操作
- 需要随机访问字符的应用
- 对存储空间要求不高但需要处理速度的场景
字节序(Byte Order)
UTF-32存在两种字节序格式:
- UTF-32BE:大端字节序(Big Endian)
- UTF-32LE:小端字节序(Little Endian)
文件可以以字节顺序标记(BOM)开头来指示使用的字节序。