王志勇 发表于 2007年01月17日 12:15
语言设置指的是<meta>这里的charset,如简体中文是charset=gb2312,UTF-8是charset=utf-8;文本编码指的是文件的储存格式,我们新建的文本文件默认都是ANSI格式,所以不能含有如©、®这类字符。为了不让网页出现乱码,语言设置和文本编码应该相对应,简体中文的文本编码格式是gb2312,UTF-8文本编码格式是UTF-8。语言设置和文本编码对于任何客户端网页都适用,如.htm、.asp、.php、.jsp、.aspx的网页。 ANSI和UTF-8文本编码的体积,我这里做了一些实验,同一个字符重复N次,均去掉了Unicode签名(BOM),如下表: 总结:(以下的byte就是字节) 1、半角的字符,如英文、数字、半角符号,ANSI和UTF-8文本编码的体积比是1:1,UTF-8格式会多出3个byte。 总之,英文、数字、半角符号,在ANSI和UTF-8编码格式下都占用1个byte;中文,全角标点,在ANSI下占用2个byte,在UTF-8下占用3个byte。 本Blog开通了近5个月,网页一直使用gb2312语言、文本使用标准ANSI编码。中文Blog在2005年、2006年这两年,呈现出了极其壮观的场面,Blog在网络中,几乎可以最大程度地促进和改善一个人的理性思考能力。中文Blog,UTF-8语言编码占多数,我估计约占70%,gb2312语言编码约占30%。 楼主是做网页的,推荐楼主用 Dreamware 来测试正确的文本体积,使用记事本将得到错误的答案 加UNICODE签名的做法在其他平台兼容性上有问题字符 编码格式 重复次数 文件体积 英文、半角字符: a ANSI 100次 100 bytes A ANSI 100次 100 bytes a UTF-8 100次 100 bytes a UTF-8 1000次 1000 bytes a UTF-8 10000次 10000 bytes 汉字、全角字符: 好 ANSI 100次 200 bytes あ ANSI 100次 200 bytes 好 UTF-8 100次 300 bytes ® UTF-8 100次 200 bytes 한 UTF-8 100次 300 bytes 好 UTF-8 1000次 3000 bytes 好 UTF-8 10000次 30000 bytes Unicode编码格式: a Unicode 100次 200 bytes 好 Unicode 100次 200 bytes ® Unicode 100次 200 bytes 한 Unicode 100次 200 bytes 한 Unicode 1000次 2000 bytes
2、中文字符,ANSI和UTF-8文件的体积比是1:2,UTF-8格式多出3个byte。
3、©、®这2个字符,在UTF-8格式下,与中文字符的体积一样。
4、韩文字符不能使用ANSI格式。韩文在UTF-8格式下,一个字符占用3个byte;韩文在Unicode格式下,一个字符占用2个byte;
5、Unicode码则比较折中,所有字符都占用2个byte。
Trackback来自 《要不要使用UTF-8编码?》
自由勇在分析时有些错误,如果没猜错的话,以上测试均是使用 Windows 中的 记事本来完成的,错误在于每个 UTF-8 或 Unicode 体积都多出那三个或两个字节,因为记事本只能正常用于 Windows 中,且只能用来输入一些文本,别无他用,不能用来编程,当然,用来输入 HTML 是可以的,因为浏览器会忽略这个错误;
错误:
Windows 中的记事本是通过文本文件的前三个(UTF-8)或前两个(Unicode)字节来区分整个文本文件所使用的编码,且该机制不兼容任何其它文本编辑器,如果楼主会写程序的话就可以很容易看到记事本都是擅自加的哪几个字符;
回游客,你很细心,谢谢你提出的问题,但这并不是错误,我这里主要用EmEditor做测试。除了Dreamweaver的文本系统之外,有条件还可以用ASP、PHP、JSP分别测试一下写入的UTF-8、Unicode文本文件的体积。
EmEditor存UTF8的时候会提示要不要加UNICODE签名,不加签名的话,会少3个
| (点击申请) |
文章分类 Category:
Blog的发展 Development
为什么写博客 W-do we Blog
互联网 Internet
社会 Society
教育 Education
BBS社区研究 Community
编程 Program
友人 Younet
QQ研究 QQ Research
公告 Announcement
最新的评论 Comments:
» 毁谤别人的匿名者
» 一家门户网站的博客管理
» Entropay(欧贝
» 又一位不可思议的扮音天
» Google搜索结果在
» 声卡无声硬件排除一例
» 如何关闭ixwebho
» 今天值得纪念的数字
近期的主题:
2012-01-26:多了解一些信息没有坏处
日益低效的快递
关于香港地铁吃东西事件的翻译
2012-01-15:怜悯和爱
惨不忍睹的网站空间(人为造成)
QQ空间不能发表日志/说说/微博解决一例
新年的钟声敲响了
惠州之印象
2011-10-20:最近4个不好的用户体验
女童遭辗压无人帮助视频之感想
网络才是真实的,现实一切都是幻象
本博客的程序有发布的计划
真正的神曲和一些圣乐分享和回顾
Go Daddy的97.74 IP段又被大规模killed
时间过得很快
国外的域名查询也不安全
祝我31周岁生日快乐
有关国内近两年史无前例的清晰的UFO
Android(安卓)平板电脑的使用体验
2011-08-24:经验 & 近期动态
2011-08-03 养花
2011-06-18
2011-06-02:同龄人年轻程度却相差10岁
2011-05-28:随谈(浅谈)中英文输入速度
Go Daddy空间切换系统更换IP时现在需要慎选4GH主机
2011-05-18:随谈现实与理想(8)
随谈:2011-05-18 贴吧与新闻评论的管理
随谈:2011-05-13 心情很沉重很沉重
随谈:2011-05-08 有良知的人会提升
博客不应大量转载
随谈:2011-04-28 通过网络调查真相当中的一个途径之一
有关UFO与2012的谦卑交流与解答(1)
cPanel的主机网页长时间500错误解决一例
版权声明:本博客所有文章,均符合原创和创作共用的定义,禁止转载,违者将必究;正确的方法是贴原文的标题和网址即可。
与此相关的链接
和平海底2 | Auciou | 自由勇专栏
公益:UFO与真相研究交流区
Gratitude | Time
Blog存档 Archives
2012年01月(N)
2011年10月(8)
2011年09月(4)
2011年08月(2)
2011年06月(2)
2011年05月(6)
2011年04月(10)
2011年03月(16)
2011年02月(16)
2011年01月(15)
2010年12月(12)
2010年11月(9)
2010年10月(3)
2010年05月(4)
2010年01月(7)
2009年12月(10)
2009年11月(4)
2009年10月(8)
2009年09月(24)
2009年08月(20)
2009年07月(6)
2009年06月(11)
2009年05月(16)
2009年04月(20)
2009年03月(29)
2009年02月(18)
2009年01月(15)
2008年12月(17)
2008年11月(10)
2008年10月(13)
2008年09月(8)
2008年08月(4)
2008年07月(5)
2008年06月(9)
2008年05月(12)
2008年04月(15)
2008年03月(26)
2008年02月(22)
2008年01月(29)
2007年12月(30)
2007年11月(28)
2007年10月(30)
2007年09月(8)
2007年08月(8)
2007年07月(21)
2007年06月(23)
2007年05月(31)
2007年04月(34)
2007年03月(29)
2007年02月(18)
2007年01月(41)
2006年12月(23)
2006年11月(10)
2006年10月(10)
2006年09月(29)
2006年08月(33)
2006年07月(17)
2006年06月(30)
2006年05月(4)
2006年01月(3)
2005年09月(4)