java中为什么'a'转成int类型是97

来源：网络转载时间：2024-01-29 08:28:57

int i = 'a’;//i=97

为什么'a'对应的十进制是97

计算机是以二进制的形式来存储数据的,它只认识 0 和 1 两个数字,我们在屏幕上看到的文字,在存储之前都被转换成了二进制(0和1序列)(编码),在显示时也要根据二进制找到对应的字符。(解码)

字符集定义了文字和二进制的对应关系,为字符分配了唯一的编码

如ASCII字符集定义的'a'对应的编码是01100001

什么是字符集

字符集规定了某个文字对应的二进制数字存放方式(编码)和某串二进制数值代表了哪个文字(解码)的转换关系。

什么是字符编码

字符集只是一个规则集合的名字,对应到真实生活中,字符集就是对某种语言的称呼。例如:英语,汉语。

对于一个字符集来说要正确编码转码一个字符需要三个关键元素:字库表(character repertoire)、编码字符集(coded character set)、字符编码(character encoding form)。

字库表装着所有字符
编码字符集:即用一个序号(code point) 来表示一个字符在字库中的位置。
字符编码:编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值转为二进制直接存储。例如在ASCII中A在表中排第65位,而编码后A的数值是0100 0001也即十进制的65的二进制转换结果。

ASCII字符集

计算机是美国人发明的,他们首先要考虑的问题是,如何将二进制和英文字母对应起来。

当时,各个厂家或者公司都有自己的做法,编码规则并不统一,这给不同计算机之间的数据交换带来不小的麻烦。但是相对来说,能够得到普遍认可的有 IBM 发明的 EBCDIC 和此处要谈的 ASCII。

ASCII 是“American Standard Code for Information Interchange”的缩写,翻译过来是“美国信息交换标准代码”。看这个名字就知道,这套编码是美国人给自己设计的,他们并没有考虑欧洲那些扩展的拉丁字母,也没有考虑韩语和日语,我大中华几万个汉字更是不可能被重视。

ASCII 的标准版本于 1967 年第一次发布,最后一次更新则是在 1986 年,迄今为止共收录了 128 个字符,包含了基本的拉丁字母(英文字母)、阿拉伯数字(也就是 1234567890)、标点符号(,.!等)、特殊符号(@#$%^&等)以及一些具有控制功能的字符(往往不会显示出来)。

在 ASCII 编码中,大写字母、小写字母和阿拉伯数字都是连续分布的(见下表),这给程序设计带来了很大的方便。例如要判断一个字符是否是大写字母,就可以判断该字符的 ASCII 编码值是否在 65~90 的范围内。

字库表

<thead>

align: center">二进制	十进制	十六进制	字符/缩写	解释
00000000	0	00	NUL (NULL)	空字符
00000001	1	01	SOH (Start Of Headling)	标题开始
00000010	2	02	STX (Start Of Text)	正文开始
00000011	3	03	ETX (End Of Text)	正文结束
00000100	4	04	EOT (End Of Transmission)	传输结束
00000101	5	05	ENQ (Enquiry)	请求
00000110	6	06	ACK (Acknowledge)	回应/响应/收到通知
00000111	7	07	BEL (Bell)	响铃
00001000	8	08	BS (Backspace)	退格
00001001	9	09	HT (Horizontal Tab)	水平制表符
00001010	10	0A	LF/NL(Line Feed/New Line)	换行键
00001011	11	0B	VT (Vertical Tab)	垂直制表符
00001100	12	0C	FF/NP (Form Feed/New Page)	换页键
00001101	13	0D	CR (Carriage Return)	回车键
00001110	14	0E	SO (Shift Out)	不用切换
00001111	15	0F	SI (Shift In)	启用切换
00010000	16	10	DLE (Data Link Escape)	数据链路转义
00010001	17	11	DC1/XON (Device Control 1/Transmission On)	设备控制1/传输开始
00010010	18	12	DC2 (Device Control 2)	设备控制2
00010011	19	13	DC3/XOFF (Device Control 3/Transmission Off)	设备控制3/传输中断
00010100	20	14	DC4 (Device Control 4)	设备控制4
00010101	21	15	NAK (Negative Acknowledge)	无响应/非正常响应/拒绝接收
00010110	22	16	SYN (Synchronous Idle)	同步空闲
00010111	23	17	ETB (End of Transmission Block)	传输块结束/块传输终止
00011000	24	18	CAN (Cancel)	取消
00011001	25	19	EM (End of Medium)	已到介质末端/介质存储已满/介质中断
00011010	26	1A	SUB (Substitute)	替补/替换
00011011	27	1B	ESC (Escape)	逃离/取消
00011100	28	1C	FS (File Separator)	文件分割符
00011101	29	1D	GS (Group Separator)	组分隔符/分组符
00011110	30	1E	RS (Record Separator)	记录分离符
00011111	31	1F	US (Unit Separator)	单元分隔符
00100000	32	20	(Space)	空格
00100001	33	21	!
00100010	34	22	"
00100011	35	23	#
00100100	36	24	$
00100101	37	25	%
00100110	38	26	&
00100111	39	27	'
00101000	40	28	(
00101001	41	29	)
00101010	42	2A	*
00101011	43	2B	+
00101100	44	2C	,
00101101	45	2D	-
00101110	46	2E	.
00101111	47	2F	/
00110000	48	30	0
00110001	49	31	1
00110010	50	32	2
00110011	51	33	3
00110100	52	34	4
00110101	53	35	5
00110110	54	36	6
00110111	55	37	7
00111000	56	38	8
00111001	57	39	9
00111010	58	3A	:
00111011	59	3B	;
00111100	60	3C	<
00111101	61	3D	=
00111110	62	3E	>
00111111	63	3F	?
01000000	64	40	@
01000001	65	41	A
01000010	66	42	B
01000011	67	43	C
01000100	68	44	D
01000101	69	45	E
01000110	70	46	F
01000111	71	47	G
01001000	72	48	H
01001001	73	49	I
01001010	74	4A	J
01001011	75	4B	K
01001100	76	4C	L
01001101	77	4D	M
01001110	78	4E	N
01001111	79	4F	O
01010000	80	50	P
01010001	81	51	Q
01010010	82	52	R
01010011	83	53	S
01010100	84	54	T
01010101	85	55	U
01010110	86	56	V
01010111	87	57	W
01011000	88	58	X
01011001	89	59	Y
01011010	90	5A	Z
01011011	91	5B	[
01011100	92	5C	\
01011101	93	5D	]
01011110	94	5E	^
01011111	95	5F	_
01100000	96	60	`
01100001	97	61	a
01100010	98	62	b
01100011	99	63	c
01100100	100	64	d
01100101	101	65	e
01100110	102	66	f
01100111	103	67	g
01101000	104	68	h
01101001	105	69	i
01101010	106	6A	j
01101011	107	6B	k
01101100	108	6C	l
01101101	109	6D	m
01101110	110	6E	n
01101111	111	6F	o
01110000	112	70	p
01110001	113	71	q
01110010	114	72	r
01110011	115	73	s
01110100	116	74	t
01110101	117	75	u
01110110	118	76	v
01110111	119	77	w
01111000	120	78	x
01111001	121	79	y
01111010	122	7A	z
01111011	123	7B	{
01111100	124	7C	\|
01111101	125	7D	}
01111110	126	7E	~
01111111	127	7F	DEL (delete)	删除

后来欧洲又在ASCII码基础上扩充有了ISO-8859-1

GB2312字符集

国人也需要将中文存储到计算机,规定了GB2312字符集,使用2个字节表示一个汉字,英文还是1个字节同上

那么存储时好存,找到字符对应字符编码存储即可,但读取时怎么知道是按一个字节读还是2个字节读

如101110011111101001100001,凡是汉字,对应字符编码都以1开头,所以读取2个字节1011100111111010即国,以0开头,读取1个字节,01100001即a

GB2312 编码范围, GB2312 编码表 (qqxiuzi.cn)

分为94个区,每个区有94个数,下面以16进制表示

常见进制加减法二进制、八进制、十六进制、十进制之间的转换

GB2312编码范围:A1A1-FEFE,其中汉字编码范围:B0A1-F7FE。

如、的序号是A1A2,前两位是区号,后两位是区中的第几个数

如A1A2代表01区的第2个数

那么反过来呢?

以包为例,它在16区的第92个数,把它们转成16进制分别与A0相加

16转成十六进制是1092转成十六进制是5C  10+ A0 = B0  5C+ A0= FC即包对应的序号是B0FC,转成2进制是1011000011111100,当作字符编码存储

E5A4代表什么  E5- A0= 45  A4- A0=  445转成10进制是69,4转成10进制还是4即69区的第4个数

如果10转16进制看着不舒服

GB2312 中文简体字库表_panqihe的专栏-CSDN博客_gb2312字库表

、对应的是A1A0+2,即A1A2,比较一目了然

GBK和GB18030是后来的扩展编码

GB2312,GBK,GB18030 这几种字符集的主要区别是什么

Unicode

早期人们用 8 位二进制来编码英文字母(最前面的一位是 0),也就是说,将英文字母和一些常用的字符和这 128 中二进制 0、1 串一一对应起来,比如说大写字母“A”所对应的二进制位“01000001”,转换为十六进制为 41。

在美国,这 128 是够了,但是其他国家不答应啊,他们的字符和英文是有出入的,比如在法语中在字母上有注音符号,如 é ,这个怎么表示成二进制?

所以各个国家就决定把字节中最前面未使用的那一个位拿来使用,原来的 128 种状态就变成了 256 种状态,比如 é 就被编码成 130(二进制的 10000010)。

为了保持与 ASCII 码的兼容性,一般最高为为 0 时和原来的 ASCII 码相同,最高位为 1 的时候,各个国家自己给后面的位 (1xxx xxxx) 赋予他们国家的字符意义。

但是这样一来又有问题出现了,不同国家对新增的 128 个数字赋予了不同的含义,比如说 130 在法语中代表了 é,但是在希伯来语中却代表了字母 Gimel(这不是希伯来字母,只是读音翻译成英文的形式)具体的希伯来字母 Gimel 看下图

所以这就成了不同国家有不同国家的编码方式,所以如果外国朋友发给你一封邮件,打开后全是???乱码,正是因为使用的解码方式与编码不一致

如下面的例子

使用UTF-8编码(一个汉字占3个字节)储存"天下"得到的二进制是11100101 10100100 10101001 11100100 10111000 10001011

使用GB2312解码,1开头的读2个字节,11100101 10100100转成16进制是E5A4,即69区的第4个数澶,剩下自己解析,即“澶╀笅”

Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的序号,这个序号一般写成 16 进制,在前面加上 U+。例如:“马”的 Unicode 是U+9A6C。

Unicode 本身只规定了每个字符的在表上的编号是多少(编码字符集),并没有规定这个编号如何存

那我可以直接把 Unicode 编号直接转换成二进制进行存储,就同ASCII和GBK一样,是的,你可以,但是这个就需要人为的规定了,而 Unicode 并没有说这样弄,因为除了你这种直接转换成二进制的方案外,还有其他方案,接下来我们会逐一看到。

编号怎么对应到二进制表示呢?有多种方案:主要有 UTF-8,UTF-16,UTF-32。

UCS-2和UCS-4是什么

1、UTF-32

先来看简单的 UTF-32,很浪费空间

这个就是字符所对应编号的整数二进制形式,四个字节。这个就是直接转换。比如马的 Unicode 为:U+9A6C,那么直接转化为二进制,它的表示就为:00000000 00000000 10011010 01101100。

这里需要说明的是,转换成二进制后计算机存储的问题,我们知道,计算机在存储器中排列字节有两种方式:大端法和小端法,大端法就是将高位字节放到低地址处,比如16进制 0x1234, 计算机用两个字节存储,一个是高位字节 0x12,一个是低位字节 0x34,它的存储方式为下:

计算机存储的大端法和小端法

143416对应的二进制是00010100 00110100,14是高位,34是低位字节;但16位不能放在1个只能装8位的格子里,|00010100|00110100|,高位字节放在前面叫大端法

|00110100|00010100,这么放叫小端法

UTF-32 用四个字节表示,处理单元为四个字节(一次拿到四个字节进行处理),如果不分大小端的话,那么就会出现解读错误,比如我们一次要处理四个字节 12 34 56 78,这四个字节是表示 0x12 34 56 78 还是表示 0x78 56 34 12?不同的解释最终表示的值不一样。

我们可以根据他们高低字节的存储位置来判断他们所代表的含义,所以在编码方式中有 UTF-32BE 和 UTF-32LE,分别对应大端和小端,来正确地解释多个字节(这里是四个字节)的含义。

0x11是什么,0x代表16进制的11

//可是试试输出aint a = 11;//十进制a = 015;//八进制,相当于10进制的13a = 0x20;//16进制,10进制的32a = 0b11;//2进制,10进制的3

2、UTF-16

UTF-16 使用变长字节表示

① 对于编号在 U+0000 到 U+FFFF 的字符(常用字符集),直接用两个字节表示。
② 编号在 U+10000 到 U+10FFFF 之间的字符,需要用四个字节表示。

同样,UTF-16 也有字节的顺序问题(大小端),所以就有 UTF-16BE 表示大端,UTF-16LE 表示小端。

1个16进制数对应4个二进制数位,2个16进制数位对应8个二进制数位,即1个字节

892316 -> 10001001 001000112

8916 -> 100010012

2316 -> 001000112

816 -> 10002

916 -> 10012

216 -> 00102

316 -> 00112

存储a的二进制,a -> 009710 -> 006116

大端00000000 01100001

小端01100001 00000000

3、UTF-8

UTF-8 就是使用变长字节表示,顾名思义,就是使用的字节数可变,这个变化是根据 Unicode 编号的大小有关,编号小的使用的字节就少,编号大的使用的字节就多。使用的字节个数从 1 到 4 个不等。

UTF-8 的编码规则是:

① 对于单字节的符号,字节的第一位设为 0,后面的7位为这个符号的 Unicode 码,因此对于英文字母,UTF-8 编码和 ASCII 码是相同的。

② 对于n字节的符号(n>1),第一个字节的前 n 位都设为 1,第 n+1 位设为 0,后面字节的前两位一律设为 10,剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。

举个例子:比如说一个字符的 Unicode 编码是 130,显然按照 UTF-8 的规则一个字节是表示不了它(因为如果是一个字节的话前面的一位必须是 0),所以需要两个字节(n = 2)。

根据规则,第一个字节的前 2 位都设为 1,第 3(2+1) 位设为 0,则第一个字节为:110X XXXX,后面字节的前两位一律设为 10,后面只剩下一个字节,所以后面的字节为:10XX XXXX。

所以它的格式为 110XXXXX 10XXXXXX 。

下面我们来具体看看具体的 Unicode 编号范围与对应的 UTF-8 二进制格式

那么对于一个具体的 Unicode 编号,具体怎么进行 UTF-8 的编码呢?

首先找到该 Unicode 编号所在的编号范围,进而可以找到与之对应的二进制格式,然后将该 Unicode 编号转化为二进制数(去掉高位的 0),最后将该二进制数从右向左依次填入二进制格式的 X 中,如果还有 X 未填,则设为 0 。

比如:“马”的 Unicode 编号是:0x9A6C,整数编号是 39532,对应第三个范围(2048 - 65535),其格式为:1110XXXX 10XXXXXX 10XXXXXX,39532 对应的二进制是 1001 1010 0110 1100,将二进制填入进入就为:

11101001 10101001 10101100 。

关于“为何Unicode中文字符占取2个字节,而 UTF-8却占3个字节”的网络解释修正

由于 UTF-8 的处理单元为一个字节(也就是一次处理一个字节),所以处理器在处理的时候就不需要考虑这一个字节的存储是在高位还是在低位,直接拿到这个字节进行处理就行了,因为大小端是针对大于一个字节的数的存储问题而言的。

综上所述,UTF-8、UTF-16、UTF-32 都是 Unicode 的一种实现。

带有bom格式的utf-8

BOM:byte order mark,定义字节顺序,因为网络传输中分为两种,大头和小头。uft-8不需要bom表明字节顺序,但可以用BOM来表示编码方式,windows就是采用bom来标记文本文件的编码方式的。

bom是为utf-16和utf-32准备的,用于标记字节顺序。微软在utf-8中使用bom是因为这样可以把UTF-8和ASCII等编码区分开来,但这样的文件在windows之外的操作系统里会带来问题。

不含bom的UTF-8才是标准形式。UTF-8」和「带 BOM 的 UTF-8」的区别就是有没有 BOM。即文件开头有没有 U+FEFF。
UTF-8 的网页代码不应使用 BOM,否则常常会出错。

为什么要这么麻烦

那既然字库表中的每一个字符都有一个自己的序号,直接把序号转成二进制作为存储内容就好了。为什么unicode还要多此一举通过字符编码把序号转换成另外一种存储格式呢?你看ASCII码为什么不这样?

其实原因也比较容易理解:unicode的目的是为了能够涵盖世界上所有的字符,准备了一个很大的字库表,能够装下1114112个字符,比如最后一个字符对应的序号转成的二进制是100001111111111111111至少占3个字节

但实际使用过程中会发现真正用的上的字符相对整个字库表来说比例非常低。例如中文地区的程序几乎不会需要日语字符,而一些英语国家甚至简单的ASCII字库表就能满足基本需求。

而如果把每个字符都用字库表中的序号转成的二进制来存储的话,每个字符就需要3个字节(这里以Unicode字库为例),这样对于原本用仅占一个字符的ASCII编码的英语地区国家显然是一个额外成本(存储体积是原来的三倍)。算的直接一些,同样一块硬盘,用ASCII可以存1500篇文章,而用3字节Unicode序号存储只能存500篇。于是就出现了UTF-8这样的变长编码。在UTF-8编码中原本只需要一个字节的ASCII字符,仍然只占一个字节。而像中文及日语这样的复杂字符就需要2个到3个字节来存储。

char采用的是UTF-16BE编码格式

java文件的编码方式可能有多种多样,但java编译器只要指定了源文件的编码方式,会自动按照java文件的编码格式正确读取后产生class文件,这里的class文件编码是UTF-16BE编码。

JVM加载class文件读取时候使用Unicode编码方式正确读取class文件,那么原来定义的String s="汉字";在内存中的表现形式是Unicode编码,UTF-16表示汉字只需2个字节,char类型刚好装得下;要是使用UTF-8就不一定了

不管在编译前java文件使用何种编码,在编译后成class后,他们都是一样的----Unicode编码表示。

char c = 'a’;a的字符编码是00000000 01100001转成int类型展现10进制的数,即97int i = c;//i=97    天的utf-16BE编码是0101100100101001,对应16进制是5929c = 0x5929;//打印c结果是天

java常见的转义字符

一般使用\开头,把一个字符转义

\n : 换行
\t : 制表符tab
\r : 换行
\f : 换页
\u: 把16进制的编码转成对应的字符

char c = '\n';System.out.println(c);System.out.println(2);可以看到2前面多了一行空白行其实ln表示当前行结束打印,要继续打印就要到下一行,不信把ln去掉    System.out.print(2);System.out.print(2);

System.out.print("s"+'\t'+2);可以看到s与2隔了一个tab键的距离

以天的16进制为例,5929char c = '\u5929';//c='天'

怎么输出一个','是有特殊含义的字符,代表字符的开始char c = '\'';//使用\代表'是一个普通的字符

同理想输出一个\char c = '\\';

转载自十分钟搞清字符集和字符编码Unicode与UTF-8的区别Java java采用的编码、JVM平台默认字符集和外部资源的编码utf-8与带有BOM的utf-8的区别UTF-8的BOM是什么意思计算机中编码方式---ASCII,ISO-8859-1以及UTF-8和UTF-16编码计算机中编码方式---ASCII,ISO-8859-1以及UTF-8和UTF-16编码

本文来自那么简洁的博客园,作者:赤北,转载请注明原文链接:https://www.cnblogs.com/cqhh/p/15181487.html

本文由 贵州做网站公司 整理发布，部分图文来源于网络，如有侵权，请联系我们删除，谢谢！

标签：97xxo-

上一篇：Java ServiceActivator类使用实例

下一篇：中国国内开源网站都有哪些呢?