王志勇 发表于 2007年01月17日 12:15
ANSI和UTF-8文本编码的体积,我这里做了一些实验,同一个字符重复N次,均去掉了Unicode签名(BOM),如下表:
| 字符 | 编码格式 | 重复次数 | 文件体积 |
| 英文、半角字符: | |||
| a | ANSI | 100次 | 100 bytes |
| A | ANSI | 100次 | 100 bytes |
| a | UTF-8 | 100次 | 100 bytes |
| a | UTF-8 | 1000次 | 1000 bytes |
| a | UTF-8 | 10000次 | 10000 bytes |
| 汉字、全角字符: | |||
| 好 | ANSI | 100次 | 200 bytes |
| あ | ANSI | 100次 | 200 bytes |
| 好 | UTF-8 | 100次 | 300 bytes |
| ® | UTF-8 | 100次 | 200 bytes |
| 한 | UTF-8 | 100次 | 300 bytes |
| 好 | UTF-8 | 1000次 | 3000 bytes |
| 好 | UTF-8 | 10000次 | 30000 bytes |
| Unicode编码格式: | |||
| a | Unicode | 100次 | 200 bytes |
| 好 | Unicode | 100次 | 200 bytes |
| ® | Unicode | 100次 | 200 bytes |
| 한 | Unicode | 100次 | 200 bytes |
| 한 | Unicode | 1000次 | 2000 bytes |
总结:(以下的byte就是字节)
1、半角的字符,如英文、数字、半角符号,ANSI和UTF-8文本编码的体积比是1:1,UTF-8格式会多出3个byte。
2、中文字符,ANSI和UTF-8文件的体积比是1:2,UTF-8格式多出3个byte。
3、©、®这2个字符,在UTF-8格式下,与中文字符的体积一样。
4、韩文字符不能使用ANSI格式。韩文在UTF-8格式下,一个字符占用3个byte;韩文在Unicode格式下,一个字符占用2个byte;
5、Unicode码则比较折中,所有字符都占用2个byte。
总之,英文、数字、半角符号,在ANSI和UTF-8编码格式下都占用1个byte;中文,全角标点,在ANSI下占用2个byte,在UTF-8下占用3个byte。
本Blog开通了近5个月,网页一直使用gb2312语言、文本使用标准ANSI编码。中文Blog在2005年、2006年这两年,呈现出了极其壮观的场面,Blog在网络中,几乎可以最大程度地促进和改善一个人的理性思考能力。中文Blog,UTF-8语言编码占多数,我估计约占70%,gb2312语言编码约占30%。
错误:
Windows 中的记事本是通过文本文件的前三个(UTF-8)或前两个(Unicode)字节来区分整个文本文件所使用的编码,且该机制不兼容任何其它文本编辑器,如果楼主会写程序的话就可以很容易看到记事本都是擅自加的哪几个字符;
楼主是做网页的,推荐楼主用 Dreamware 来测试正确的文本体积,使用记事本将得到错误的答案
置顶的文章:
论朋友圈可以发什么?
短信验证开发的方案分享
巡回更新:2018-09-21
速度是永恒的主题
UTF-8、HTTPS原来都是浮云
https安全吗?
独立博客有必要安装https吗?
近期的主题:
人生讨论(24):深圳是出行最差的城市
人生讨论(23):心灵帖=智慧帖 & 致富原理
推荐2026年度的新型特级网红
秒会+实战PHP程序设计培训(2)
趣谈民谣吉他/古典吉他
人生讨论(22):瀑布秋千坠亡事件的深入本质
人生讨论(21):“明白不”的心理机制
明星经济和创业思维(3)
明星经济和创业思维(2)
明星经济和创业思维
博客近况和话题
“叱咤”的粤语正确读音
有关一语成谶成立吗?
伟大的人:张雪峰先生
为什么很多大V都会有深度黑粉?
成事的关键
同岁歌手:谢霆锋
待填充
2025的年底感言
评论正在逐渐给博友审核中
版权声明:本博客所有文章,均符合原创的定义,禁止转载,违者将必究;正确的方法是贴原文的标题和网址即可。
与此相关的链接
自由勇专栏
Blog存档 Archives
2025年-2026年03月(10)
2024年(13)
2023年 +