• 卡农-四声部人声自拍 订阅本博客

    如何订阅博客?
  • Blog首页关于和平海底Blog存档联系自由勇网站地图友情链接

  • ANSI和UTF-8文本编码的体积比较

    王志勇 发表于 2007年01月17日 12:15

    语言设置指的是<meta>这里的charset,如简体中文是charset=gb2312,UTF-8是charset=utf-8;文本编码指的是文件的储存格式,我们新建的文本文件默认都是ANSI格式,所以不能含有如©、®这类字符。为了不让网页出现乱码,语言设置和文本编码应该相对应,简体中文的文本编码格式是gb2312,UTF-8文本编码格式是UTF-8。语言设置和文本编码对于任何客户端网页都适用,如.htm、.asp、.php、.jsp、.aspx的网页。

    ANSI和UTF-8文本编码的体积,我这里做了一些实验,同一个字符重复N次,均去掉了Unicode签名(BOM),如下表:

    字符编码格式重复次数文件体积
    英文、半角字符:
    aANSI100次100 bytes
    AANSI100次100 bytes
    aUTF-8100次100 bytes
    aUTF-81000次1000 bytes
    aUTF-810000次10000 bytes
    汉字、全角字符:
    好ANSI100次200 bytes
    あANSI100次200 bytes
    好UTF-8100次300 bytes
    ®UTF-8100次200 bytes
    한UTF-8100次300 bytes
    好UTF-81000次3000 bytes
    好UTF-810000次30000 bytes
    Unicode编码格式:
    aUnicode100次200 bytes
    好Unicode100次200 bytes
    ®Unicode100次200 bytes
    한Unicode100次200 bytes
    한Unicode1000次2000 bytes

    总结:(以下的byte就是字节)

    1、半角的字符,如英文、数字、半角符号,ANSI和UTF-8文本编码的体积比是1:1,UTF-8格式会多出3个byte。
    2、中文字符,ANSI和UTF-8文件的体积比是1:2,UTF-8格式多出3个byte。
    3、©、®这2个字符,在UTF-8格式下,与中文字符的体积一样。
    4、韩文字符不能使用ANSI格式。韩文在UTF-8格式下,一个字符占用3个byte;韩文在Unicode格式下,一个字符占用2个byte;
    5、Unicode码则比较折中,所有字符都占用2个byte。

    总之,英文、数字、半角符号,在ANSI和UTF-8编码格式下都占用1个byte;中文,全角标点,在ANSI下占用2个byte,在UTF-8下占用3个byte。

    8条评论:
    1   自由勇 2007-01-17 16:15
    Trackback来自 《要不要使用UTF-8编码?》

    本Blog开通了近5个月,网页一直使用gb2312语言、文本使用标准ANSI编码。中文Blog在2005年、2006年这两年,呈现出了极其壮观的场面,Blog在网络中,几乎可以最大程度地促进和改善一个人的理性思考能力。中文Blog,UTF-8语言编码占多数,我估计约占70%,gb2312语言编码约占30%。

    2   游客 2007-04-04 10:48
    自由勇在分析时有些错误,如果没猜错的话,以上测试均是使用 Windows 中的 记事本来完成的,错误在于每个 UTF-8 或 Unicode 体积都多出那三个或两个字节,因为记事本只能正常用于 Windows 中,且只能用来输入一些文本,别无他用,不能用来编程,当然,用来输入 HTML 是可以的,因为浏览器会忽略这个错误;


    错误:
    Windows 中的记事本是通过文本文件的前三个(UTF-8)或前两个(Unicode)字节来区分整个文本文件所使用的编码,且该机制不兼容任何其它文本编辑器,如果楼主会写程序的话就可以很容易看到记事本都是擅自加的哪几个字符;

    楼主是做网页的,推荐楼主用 Dreamware 来测试正确的文本体积,使用记事本将得到错误的答案

    3   自由勇 2007-04-04 10:53
    回游客,你很细心,谢谢你提出的问题,但这并不是错误,我这里主要用EmEditor做测试。除了Dreamweaver的文本系统之外,有条件还可以用ASP、PHP、JSP分别测试一下写入的UTF-8、Unicode文本文件的体积。
    4   kukukuan@163.com 2007-04-05 11:42
    EmEditor存UTF8的时候会提示要不要加UNICODE签名,不加签名的话,会少3个

    加UNICODE签名的做法在其他平台兼容性上有问题

    5   自由勇 2009-02-08 08:41
    Trackback来自 《 Unicode和UTF-8,GB2312》

    中文网站使用ANSI(GB2312)编码,是最理想的编码。

    6   自由勇 2009-02-08 10:17
    回4楼的朋友,我已经去掉了Unicode签名,文章更新了一下。
    7   王江勇 2009-11-05 15:03
    认识一下,我叫王江勇,只是觉得我们的名字有点象,所以给你留言了。
    8   cjrcl 2010-07-13 11:17
    2、中文字符,ANSI和UTF-8文件的体积比是2:3,UTF-8格式多出开头3个byte:EF BB BF(用Debug Dump出来一看便知)。

    发表评论:
    名字: (*必填)
    博客: (可省,仅限于Blog地址)
    验证码: s48p58a68c78e88c98r108a118f128t138 (*必填)

    正文:

      记住信息? 是 否

    直接发送Trackback到此文章

    说明:本评论系统不支持HTML代码。(您的留言需要审核,审核规则请见这里。)

     (点击申请)

    文章分类 Category:
    Blog的发展 Development
    为什么写博客 W-do we Blog
    互联网 Internet
    社会 Society
    教育 Education
    BBS社区研究 Community
    编程 Program
    友人 Younet
    QQ研究 QQ Research
    公告 Announcement

    最新的评论 Comments:
    » 毁谤别人的匿名者
    » 一家门户网站的博客管理
    » Entropay(欧贝
    » 又一位不可思议的扮音天
    » Google搜索结果在
    » 声卡无声硬件排除一例
    » 如何关闭ixwebho
    » 今天值得纪念的数字

    近期的主题:
    2012-01-26:多了解一些信息没有坏处
    日益低效的快递
    关于香港地铁吃东西事件的翻译
    2012-01-15:怜悯和爱
    惨不忍睹的网站空间(人为造成)
    QQ空间不能发表日志/说说/微博解决一例
    新年的钟声敲响了
    惠州之印象
    2011-10-20:最近4个不好的用户体验
    女童遭辗压无人帮助视频之感想
    网络才是真实的,现实一切都是幻象
    本博客的程序有发布的计划
    真正的神曲和一些圣乐分享和回顾
    Go Daddy的97.74 IP段又被大规模killed
    时间过得很快
    国外的域名查询也不安全
    祝我31周岁生日快乐
    有关国内近两年史无前例的清晰的UFO
    Android(安卓)平板电脑的使用体验
    2011-08-24:经验 & 近期动态
    2011-08-03 养花
    2011-06-18
    2011-06-02:同龄人年轻程度却相差10岁
    2011-05-28:随谈(浅谈)中英文输入速度
    Go Daddy空间切换系统更换IP时现在需要慎选4GH主机
    2011-05-18:随谈现实与理想(8)
    随谈:2011-05-18 贴吧与新闻评论的管理
    随谈:2011-05-13 心情很沉重很沉重
    随谈:2011-05-08 有良知的人会提升
    博客不应大量转载
    随谈:2011-04-28 通过网络调查真相当中的一个途径之一
    有关UFO与2012的谦卑交流与解答(1)
    cPanel的主机网页长时间500错误解决一例

    王志勇(自由勇):程序设计。
    公历1980-09-26 天秤座 32岁
    联系我:信息反馈、留言板。

    版权声明:本博客所有文章,均符合原创和创作共用的定义,禁止转载,违者将必究;正确的方法是贴原文的标题和网址即可。

    与此相关的链接
    和平海底2 | Auciou | 自由勇专栏
    公益:UFO与真相研究交流区
    Gratitude | Time

    Blog存档 Archives

    2012年01月(N)
    2011年10月(8)
    2011年09月(4)
    2011年08月(2)
    2011年06月(2)
    2011年05月(6)
    2011年04月(10)
    2011年03月(16)
    2011年02月(16)
    2011年01月(15)
    2010年12月(12)
    2010年11月(9)
    2010年10月(3)
    2010年05月(4)
    2010年01月(7)
    2009年12月(10)
    2009年11月(4)
    2009年10月(8)
    2009年09月(24)
    2009年08月(20)
    2009年07月(6)
    2009年06月(11)
    2009年05月(16)
    2009年04月(20)
    2009年03月(29)
    2009年02月(18)
    2009年01月(15)
    2008年12月(17)
    2008年11月(10)
    2008年10月(13)
    2008年09月(8)
    2008年08月(4)
    2008年07月(5)
    2008年06月(9)
    2008年05月(12)
    2008年04月(15)
    2008年03月(26)
    2008年02月(22)
    2008年01月(29)
    2007年12月(30)
    2007年11月(28)
    2007年10月(30)
    2007年09月(8)
    2007年08月(8)
    2007年07月(21)
    2007年06月(23)
    2007年05月(31)
    2007年04月(34)
    2007年03月(29)
    2007年02月(18)
    2007年01月(41)
    2006年12月(23)
    2006年11月(10)
    2006年10月(10)
    2006年09月(29)
    2006年08月(33)
    2006年07月(17)
    2006年06月(30)
    2006年05月(4)
    2006年01月(3)
    2005年09月(4)


  • Copyright © 2006-2012 auiou.com All rights reserved.
    此Blog程序由王志勇编写