基于C#开发中的那些编码问题(详谈)

最近一直在搞各种编码问题，略有心得，与大家分享一番。

System.Text提供了Encoding的抽象类，这个类提供字符串编码的方法。常用的编码方式主要有ASCII，Unicode，UTF8（Unicode编码的一种）。

Unicode有四种编码格式，UTF-8, UTF-16,UTF-32,UTF-7。

字符编码类,ASCIIEncoding ,UTF7Encoding,UnicodeEncoding,UTF32Encoding。

下面对ASCII和Unicode编码进行对比，废话不说，先上代码：

这是ASCII编码、解码。

				?

									static void Main(string[] args)

									  {

									   string temp = "Hello World!";

									   Console.WriteLine("Original String:{0}", temp);

									   byte[] tempBytes = System.Text.Encoding.ASCII.GetBytes(temp);

									   Console.WriteLine("Bytes Array:{0}", BitConverter.ToString(tempBytes));

									   BigInteger integer = new BigInteger(tempBytes);

									   Console.WriteLine("BigInteger:{0}", integer);

									   string res = System.Text.Encoding.ASCII.GetString(tempBytes);

									   Console.WriteLine("Convert Back String:{0}", res);

									   Console.ReadKey();

									  }

运行结果如下：

				?

									Original String:Hello World!

									Bytes Array:48-65-6C-6C-6F-20-57-6F-72-6C-64-21

									BigInteger:10334410032597741434076685640

									Convert Back String:Hello World!

很正常，对吧？但是，如果输入的字符串是中文（或者其他非ASCII表中的字符），情况会怎么样呢？

改变上面的程序代码

				?

									string temp = "你好，世界！";

运行结果如下：

				?

									Original String:你好，世界！

									Bytes Array:3F-3F-3F-3F-3F-3F

									BigInteger:69540876599103

									Convert Back String:??????

如果把编码格式换成UTF8，依然重复上面的测试过程。

				?

									static void Main(string[] args)

									  {

									   string temp = "你好，世界！";

									   Console.WriteLine("Original String:{0}", temp);

									   byte[] tempBytes = System.Text.Encoding.UTF8.GetBytes(temp);

									   Console.WriteLine("Bytes Array:{0}", BitConverter.ToString(tempBytes));

									   BigInteger integer = new BigInteger(tempBytes);

									   Console.WriteLine("BigInteger:{0}", integer);

									   string res = System.Text.Encoding.UTF8.GetString(tempBytes);

									   Console.WriteLine("Convert Back String:{0}", res);

									   Console.ReadKey();

									  }

运行结果如下：

				?

									Original String:你好，世界！

									Bytes Array:E4-BD-A0-E5-A5-BD-EF-BC-8C-E4-B8-96-E7-95-8C-EF-BC-81

									BigInteger:-10998968812899434720462615123889939386679836

									Convert Back String:你好，世界！

				?

									Original String:Hello World!

									Bytes Array:48-65-6C-6C-6F-20-57-6F-72-6C-64-21

									BigInteger:10334410032597741434076685640

									Convert Back String:Hello World!

通过对比，我们发现除了兼容中文和其他语言外，似乎没有太大区别。如果把编码集换成Unicode，中英文字符编码的不同就会很容易看出来了。

				?

									Original String:Hello World!

									Bytes Array:48-00-65-00-6C-00-6C-00-6F-00-20-00-57-00-6F-00-72-00-6C-00-64-00-21-00

									BigInteger:3160918205608148134863399242437668999277801104545742920

									Convert Back String:Hello World!

				?

									Original String:你好，世界！

									Bytes Array:60-4F-7D-59-0C-FF-16-4E-4C-75-01-FF

									BigInteger:-307722159543719876182061216

									Convert Back String:你好，世界！