关于彼此的称呼 订阅此博客

如何订阅博客?

Blog首页关于和平海底Blog存档联系王志勇网站地图友情链接

要不要使用UTF-8编码? - 王志勇的Blog
王志勇(自由勇):程序设计。
1980-09-26 天秤座
与我联系:信息反馈留言板

与此相关的链接
我的Blog英文版 Cutegd
自由勇的休闲站 Auciou

Blog存档 Archives

2008年07月(1)
2008年06月(9)
2008年05月(12)
2008年04月(15)
2008年03月(26)
2008年02月(22)
2008年01月(29)
2007年12月(30)
2007年11月(28)
2007年10月(30)
2007年09月(8)
2007年08月(8)
2007年07月(21)
2007年06月(23)
2007年05月(31)
2007年04月(34)
2007年03月(29)
2007年02月(18)
2007年01月(41)
2006年12月(23)
2006年11月(10)
2006年10月(10)
2006年09月(29)
2006年08月(33)
2006年07月(17)
2006年06月(30)
2006年05月(4)
2006年01月(3)
2005年09月(4)

版权声明:此网志按照创作共用约定的方式授权,请勿转载。

本Blog使用中国电信服务器

Friends Contact

要不要使用UTF-8编码?

王志勇 发表于 2006年10月22日 10:09

本Blog开通了近5个月,网页一直使用gb2312语言、文本使用标准ANSI编码。中文Blog在2005年、2006年这两年,呈现出了极其壮观的场面,Blog在网络中,几乎可以最大程度地促进和改善一个人的理性思考能力。中文Blog,UTF-8语言编码占多数,我估计约占70%,gb2312语言编码约占30%。

使用UTF-8编码唯一的好处是,国外的用户如果使用Windows XP英文版,浏览UTF-8编码的任何网页,无论是中文、还是日文、韩文、阿拉伯文,都可以正常显示,UTF-8是世界通用的语言编码,UTF-8的推广要归功于Google的应用,以及Blog开发者。而如果用Windows XP英文版的IE6.0浏览gb2312语言编码的网页,则会提示是否安装语言包。因此,可能会失去很多的国外浏览者。

使用gb2312编码的好处是,因为程序产生的网页文本使用ANSI编码格式,会比UTF-8文本编码节省一些体积,访问速度会稍微快一点点,体积比请见我这里做的精确的实验

我们来看看日本语的Blog,使用Japanese (EUC)编码、UTF-8编码都占多数;韩国语的Blog,UTF-8编码占多数,Korean (EUC)、Korean也同样占较大部分。

由此可以得出,使用UTF-8语言编码,还是使用本国的语言编码,与是否爱国没有多大关系,或者说,压根儿就没有关系,在中国,没有一个人是不爱国的。我一直在UTF-8和gb2312之间徘徊,要不要使用UTF-8编码?千万次地问。

UTF-8的Trackback: http://www.auiou.com/capable/trackbacksw.jsp?knsh00001129
» 直接发送Trackback到此文章  » GB2312及其它语言的Trackback地址


有和平天使们的26条评论 (26 Peaceful Angels' Comments):

1   Randolph 发表于 2006-10-22 11:36
用吧。用吧。

不是需要向国际化发展吗?

2   flavien 发表于 2006-10-23 09:08
用UTF-8吧,为了韩国语:)

3   王志勇 发表于 2006-10-23 11:54
谢谢两位的回复和建议:)偶会认真考虑大家的建议。

4   muyulu 发表于 2006-10-23 15:41
其实,在你写的东西中可以看出你心里的天平已经移到UTF-8上面了~呵呵~我也支持~30:38的比例不是很大,而且我相信不会为了一点点速度而放弃国外的访问吧~况且这里的速度已经很快了~~

5   wells 发表于 2006-10-25 20:21
建议使用UTF8编码,特别是在有的时候,
比如繁体中文的用户访问我们的BLOG,留下他的留言的时候,如果使用UTF8则绝对没有问题。

另外,向我这种使用LINUX/FreeBSD操作系统的用户,UTF8更没问题,操作系统的文件系统默认编码就是UTF8的,
听说简体中文的Windows Vista也要向Linux一样,把默认的文件系统编码从CP936(GB2312)改成UTF8了

毕竟UTF8是大势所趋

6   王志勇 发表于 2006-10-27 09:14
本Blog已改为UTF-8编码,谢谢大家回复。:)

7   javy 发表于 2006-11-18 00:39
我使用了utf-8进行编码,但在用一些搜索引擎模拟器时行搜索的时候,搜出来的都是乱码,而且输入的关键词也搜不到,实际引擎会不会这样?
还有就是请问一个问题用xenu进行网站地图制作的时候,为什么我的网站只搜到二个网址,头痛!!

8   王志勇 发表于 2006-11-18 21:49
回javy,使用UTF-8编码,有2个要注意的,搜索引擎就可以正常识别了。一是网页的meta部分,必须有这句:<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">,二是网页的文本格式,必须保存为UTF-8格式,方法是用记事本打开网页,点击“文件→另存为”,在最后的Encoding,默认是ANSI,改为UTF-8。

9   javy 发表于 2006-11-19 14:10
哦,谢谢你的回答,不知你对xenu这个软件了解不,反正我使用的时候出现点问题。

10   flymorn 发表于 2006-11-19 14:25
请教UTF-8格式在编写网页源程序时要和GB2312有什么区别Z@谢谢

11   王志勇 发表于 2006-11-24 22:12
回flymorn,同8楼。

12   zeal 发表于 2006-11-26 16:47
用不用utf-8, 最关键的还在于对现有gb2312内容的转化工作量的大小。如果工作量可以接受的话,那绝对应该改用utf-8,这样可以包容最大量的文字信息,而不至于由于某个繁体字或日语什么的导致rss输出错误等不必要的麻烦。

13   javy 发表于 2006-12-13 17:14
问题原来不是编码的问题,不知道为什么xunu在遇到脚本后就会停止向下搜索,删除掉就可以了!

14   tomokk 发表于 2006-12-18 01:42
Trackback来自 《关于UTF-8

从网上找的一些关于UTF-8的内容,主要是想知道这个编码对国外访问简体中文页面是否不会显示乱码。这篇文章对我的帮助很大,非常感谢。copy了大部分和部分回复……因为存的blog好像没有trackback的选项……晕……

15   Barrios 发表于 2007-01-12 09:09
你好,为什么我用utf-8编码,数库据在页面显示的都是乱码呢!我户Golive cs 2.0完成转的编码

16   自由勇 发表于 2007-01-12 11:49
我这里的转化工作量不大,可能用了不到两三小时的时间,更改了一些程序。
回Barrios,按照8楼的步骤,做这2个设置就没问题了。

17   上海网站建设 发表于 2007-05-30 20:33
关于网页utf-8编码显示问题
具体请看一下,下面的链接。
http://www.8qq.net/info/info_219.html

18   cocaxl 发表于 2007-06-07 08:56
除了txt的中文文档之外还是都用utf-8吧, 手机上只能支持gb2312, 要是电脑用utf-8, 那每次存手机的时候还要转换一次编码, 甚是麻烦. 手机不看的文档还是支持utf-8!

19   问题 发表于 2007-06-14 15:29
有感7楼,我发现用搜索引擎模拟器(ttp://tool.chinaz.com/Seo/Spider.asp)
搜索楼主网站时,确实是乱码一堆?!

20   utfx 发表于 2007-12-12 16:02
感觉还是二字节UTF16编码更具有长远意义,处理起来也更简洁快捷方便,UTF8编码方式感觉有些复杂混乱,很不爽;
也许是西方人自我感觉太良好,觉得unicode里边一个拉丁字母要用两个字节太委屈了,结果弄了个这种不尴不尬的UTF8,我觉得这只能算是过渡方案,未来最终还是要回到UTF16

21   Qtz 发表于 2007-12-17 22:48
实际上UTF-16也并不是简单两个字节就行了,真正的Unicode空间是四维256位的,用两个字节仅能表示65536个,这个连一些生僻中文也不能表示呢。许多程序宣称自己支持UTF-16都是仅仅考虑2个字节,没有考虑更多的字符表示了,这种偏见曾经造成了不少程序的严重漏洞和缺陷。虽然用2个字节表示的BMP(基本映射平面)对于多数拉丁字符和CJK(中日韩)的常用字就够了,但是为了表示更多语言的字符,还是需要将两个以上的字当一个整体来用,这样不久和UTF-8一样吗,所以认为UTF-16的的这种编码方式有长远意义根本站不住脚。如果真是那样的话,那干脆都用UTF-32算了,还要16干什么?
另外UTF-8的最大优点就是和ASCII兼容,这个省去了很多麻烦呢。
另外UTF-16的一个大问题就是不同的硬件平台有不同的字节序,像Intel是Little-endian,而PowerPC是Big-endian,也就是一个字(WORD)的两个字节前后顺序的问题。用UTF-16的好处是编写操作系统时能更方便一些(如果只支持BMP,就把所有的宽字符都认为是2个字节为单位的),但是不方便硬件移植,尤其是Internet这个大环境里,什么机器都有,强迫用一个字节序会造成不必要的麻烦。而且还要在传输前实现用标志表示,但是这个标志可能和其它编码中的某些字符冲突。如果当初Windows像Linux一样用UTF-8的话,记事本就不会把UTF-8的“联通”变成乱码了。

22   lisachu 发表于 2008-01-23 11:32
爱国就用UTF-8 哈哈

23   口袋茶叶 发表于 2008-04-01 21:43
请问您有没有日文的 UTF-8 码表?~呵呵~谢谢。

24   led display 发表于 2008-04-18 16:10
但是听说用gb2312对搜索引擎跟友好!
百度就是完全基于GB2312的啊!

25   Qian 发表于 2008-05-07 15:01
所以说百度作为一个大的搜索引擎,导向有问题

但是听说用gb2312对搜索引擎跟友好!
百度就是完全基于GB2312的啊!

26   UD03 发表于 2008-05-24 22:03
UTF-8 当然是把事情简单化。
国外很多经典的程序都用UTF-8的。

即刻发表评论 (Deliver a prompt comment)

名字: (*必填)
网址: (可省,仅限于Blog地址)

正文:

      记住信息?

直接发送Trackback到此文章

说明:请勿发送垃圾信息、垃圾邮件;本评论系统不支持HTML标签。(您的留言需要审核)

文章分类 Category:
Blog的发展 Development
为什么写博客 W-do we Blog
互联网 Internet
社会 Society
教育 Education
BBS社区研究 Community
编程 Program
友人 Younet
QQ研究 QQ Research
公告 Announcement

最新的评论 Comments:
» 再次编写论坛程序中
» 3G的CPU的体验
» Blog程序于2006
» 编程、设计和撰稿
» Blog无聊怎么办
» 看《功夫熊猫》
» 职场
» 奢侈的验证码

近期的主题:
再次编写论坛程序中
职场
看《功夫熊猫》
最近议题
QQ头像乱跑的问题
音乐有恢复振动频率之功效
法则的伦理
演员角色与观众印象
今儿一天梦见孩子两次
有效的资讯
神秘现象
勤快的清道夫
今天调整了网页的title
寻找内在的东西
成熟与否
全国默哀3分钟
移动和电信的服务
关切earthquake受灾人民
有关原创
看《圣斗士星矢 极乐净土篇》的3~4话
支持中文Blog
英文的直译和意译
保持大型鱼的鱼缸的高清澈
Just create somewhat new consciousness
密切人际关系的生命周期
阿良到来
刷牙后不要立即睡觉


Copyright © 2006-2008 auiou.com All rights reserved.
此Blog程序由王志勇编写