UTF8与GBK字符集的权衡与选择!

22Sep2008 分类: 设计

最近在规划“问号网”的一些基础与设计,其中涉及到程序方面,到底用那种编码方式,当然现在也就是两种选择:UTF8和GBK。

经过一番对比、分析和权衡,最终还是选择GBK编码……

UTF8,GBK有什么区别?

GBK的文字编码是双字节来表示的,即不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。

至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。
GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准;

UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。

比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。

所以,对于英文比较多的应用 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。

两个考量因素——扩展性,与性能

从上面的差异分析可以看出,最终两个考量因素:

一个是扩展性:使用UTF8是“国际通用标准”,未来的兼容、扩展,都不是问题。外国人看你的内容,也可以正常(当然,他不认识中文,那就没有办法了)

性能:UTF8的存储要比GBK大1.5倍。这个在海量存储情况下,就增加了1.5倍的投入!包括未来海量情况下的“带宽”考量。

最后的选择——GBK

如果是中小型网站,实际不需要考量那么多,直接UTF8国际标准,省心了!

不过问号网,这个未来会上亿的海量应用,选择UTF8会带来1.5倍的存储增量和1.5倍的带宽压力!

鱼与熊掌从来不能兼得,在性能面前,扩展性可以其次!另外,问号网,完全面向中文,并不提供国际服务,如果又国际人士关注,那他自己安装中文包吧。不能因为极少的国际用户,而带来1.5倍的性能压力,得不偿失!

前一篇:真人糗事之2——都是拼音惹的祸!后一篇:你的SEO合格嘛?——用SEO评分系统诊断、优化你的网站前二篇:Google也有不地道的地方——搜索结果猫腻Show!后二篇:[强力推荐]我们为什么不能相信百度?前三篇:百度,在努力为自己掘墓!后三篇:百度的那些破事——百度封杀Wordpress的内幕曝光

    30日热点

  • 未找到

2条评论

(*)
(不会公布)