一文带你了解编码集

600次阅读

没有评论

一文带你了解编码集

编码集

1. ASCII编码：

127个字母 8个数据位足够存储字母、数字、符号，最大支持到0x7F。

一文带你了解编码集

2. GB2312编码

每个汉字占据2个字节(高位和低位)，16个数据。GB2312是对ASCII的中文扩展，共包含7000多个汉字。是计算机发展到中国后发展起来的编码，检测高位和低位，如果同时大于0x7F，则认为是GB2312，否则认为是ASCII编码。

3. GBK(1995)和GB18030(2005/2000)

每个汉字占据2个字节，由于汉字的数量太大，GB2312不能满足需求。GBK包括了GB2312的所有内容，

同时增加了近20000个新的汉字（包括繁体）和符号。只要求高位大于0x7F，低位可以小于0x7F，认为是中文。

> 国家标准GB18030-2000《信息交换用汉字编码字符集基本集的补充》是我国继GB2312-1980和

GB13000-1993之后最重要的汉字编码标准，包含多种我国少数民族文字，其中收入汉字70000余个。

4.Unicode编码

> 定长存储, 将所有语言都统一到一套编码集，通常使用2个字节，有的是4个字节。收录很全。

分为17个面，基本面采用２个字节，普通中文子也在基本面中，另外16个面是４个字节。

不兼容ASCII码，即存储的时候，对ASCII码前面补0，导致存储的数据变大。

５. utf-8—变长存储

> 国际标准组织(ISO)制定英文字符使用1个字节，沿用原来的ASCII码。

> 使用1~4个字节表示一个符号，中文存储使用3个字节（ascii码中的内容用1个字节保存\欧洲的字符用2个字节保存\东亚的字符用3个字节保存\特殊符号用４个字节）

> Unicode是内存编码表示方案（规范），而utf-8是如何保存和传输Unicode的方案（实现）

> 优点：虽然内存汇总的数据都是Unicode，但当数据保存到磁盘或者用于网络传输时，使用utf-8会节省更多的流量和硬盘空间。

如何判断几个字节表示一个字符：

每个字节添加识别位，其中高位识别位为４位，低位识别位为２位。判断高位字节开头有几个１，可以确定共有几个字节来表示一个字符。

６. utf-8和Unicode对应关系

utf-8去掉识别位，变成unicode。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-07-07

复制链接

赏

一文带你了解编码集

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析

静态代理IP怎么填写：步骤与示例

HTTP代理设置详解：一步步配置指南

如何找到可靠的免费代理服务器

Socks5代理配置教程及注意事项

国外代理服务器的优势及选择建议

什么是代理服务器IP：如何选择合适的

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例