网站建设仪器配置表,青岛网站制作,网站建设的类型或分类,wordpress手机端图片1. 字符编码和字符集
1.1. 字符编码
编码#xff1a;字符 –字节解码#xff1a;字节 –字符字符编码Character Encoding : 就是一套自然语言的字符与二进制数之间的对应规则。
1.2. 字符集
字符集 Charset#xff1a;是一个系统支持的所有字符的集合#xff0…1. 字符编码和字符集
1.1. 字符编码
编码字符 –字节解码字节 –字符字符编码Character Encoding : 就是一套自然语言的字符与二进制数之间的对应规则。
1.2. 字符集
字符集 Charset是一个系统支持的所有字符的集合包括各国家文字、标点符号、图形符号、数字等。
计算机要准确的存储和识别各种字符集符号需要进行字符编码一套字符集必然至少有一套字符编码。常见字符集有ASCII字符集、GBK字符集、Unicode字符集等。 ASCII字符集 (1 字节)
ASCII用于显示现代英语主要包括控制字符回车键、退格、换行键等和可显示字符英文大小写字符、阿拉伯数字和西文符号。
基本的ASCII字符集使用7位bits表示一个字符共128字符。ASCII的扩展字符集使用8位bits表示一个字符共256字符方便支持欧洲常用字符。
GBxxx字符集 (2 字节)
GB2312简体中文码表。一个小于127的字符的意义与原来相同但两个大于127的字符连在一起时就表示一个汉字这样大约可以组合了包含7000多个简体汉字此外数学符号、罗马希腊的字母、日文的假名们都编进去了连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码这就是常说的全角字符而原来在127号以下的那些就叫半角字符了。
GBK最常用的中文码表。是在GB2312标准基础上的扩展规范使用了双字节编码方案共收录了21003个汉字完全兼容GB2312标准同时支持繁体汉字以及日韩汉字等。
GB18030最新的中文码表。收录汉字70244个采用多字节编码每个字可以由1个、2个或4个字节组成。支持中国国内少数民族的文字同时支持繁体汉字以及日韩汉字等。
Unicode字符集(1--4 字节)
它最多使用4个字节的数字来表达每个字母、符号或者文字。有三种编码方案UTF-8、UTF-16和UTF-32。最为常用的UTF-8编码。
UTF-8编码可以用来表示Unicode标准中任何字符它是电子邮件、网页及其他存储或传送文字的应用中优先采用的编码。它使用一至四个字节为每个字符编码编码规则
128个US-ASCII字符只需一个字节编码。拉丁文等字符需要二个字节编码。大部分常用字含中文使用三个字节编码。其他极少使用的Unicode辅助字符使用四字节编码。