编写完成了清爽的贴吧浏览程序/贴吧占用内存测试

王志勇 发表于 2013年09月04日 11:12

百度贴吧已经越来越臃肿,当开了几个窗口浏览起来很慢。我一直想编写一个清爽的贴吧浏览程序,这件事情想了很久很久,昨天终于用了一天的时间完成了。它的原理是使用PHP的file_get_contents()函数提取任意的远程URL,然后需要查看这个URL的整个网页代码,需要花一定的时间对这些HTML代码进行分析。一个十分重要的方法是您需要熟练掌握提取HTML代码中的任意一段,原理就是例如abcdefg这7个字符,怎样获得当中的cde这3个字符?方法是先用substr()函数去掉ab及之前的所有字符,只剩下cdefg及之后的字符,然后再去掉fg及之后的字符,得到cde的结果。同理,获得HTML页的任意部分,就是用这个方法。网页中相同的部分,使用循环程序处理。用这个方法,可以把任意的论坛页面、任意的网页,通过远程抓取数据,然后重新编写为新的网页布局,供本地快速浏览使用,因为很多论坛的页面较臃肿。

各浏览器空白页占用内存的情况如下:
IE6:空白页占用4,216K;
火狐浏览器:空白页占用80,116K;
谷歌浏览器:空白页占用9,820K。

以百度贴吧这个网址A http://tieba.baidu.com/p/2573531554 为例,HTML页的体积是251K。整个网页加上图片的体积为2.86兆,这2.86兆当中,.jpg文件是376K,.gif文件是22.9K,.css文件是440K,.js文件是1.55兆,.png文件是166K,等等。从这些文件的大小比例可以看出,JavaScript竟然占了这么大的比例。贴吧有大量的内容HTML页面,都在300K~350K左右。这个网页所占用的内存,以网页加载完毕为准,如下:

IE6浏览器:打开网址A占用45,596K;
火狐浏览器:打开网址A占用130,356K;
谷歌浏览器:打开网址A出现了4个进程,共占用96,812K。

制作了清爽版的贴吧浏览程序,无论是使用什么浏览器,速度都快很多。只要编写2个程序的文件即可,一个是论坛标题页面、一个是内容的页面。我只提取贴吧的发言作者、时间、内容,去掉了签名档、头像。而且现在贴吧很多人的签名档、头像很不健康,去掉之后既提高了速度又起到了过滤的作用,浏览贴吧是为了从贴吧中看到有益的信息。这2个页面如下图:

下图是贴吧的内容页面,我喜欢这种紧凑的方式,也明显提高了阅读速度,节省了大量的时间。因为贴吧中,有很多的空白区域。即使网友只留一句话,也会占用很大的面积,再加上那些花花绿绿的签名档,占用的地方就更多。所以,使用紧凑的方式重新排列供自己阅读。

上述的这个的网址A的网页,使用清爽页来浏览的内存占用情况如下:
IE6浏览器:打开网址A占用22,332K;
火狐浏览器:打开网址A占用89,968K;
谷歌浏览器:打开网址A出现了2个进程,共占用34,520K。

这个清爽页,比原来的页面,IE6大约节省了23兆的内存,火狐浏览器大约节省了40兆的内存,谷歌浏览器大约节省了62兆的内存,速度提升很明显。这个清爽页是在本机的Apache+PHP的环境下运行,可以快速浏览任何贴吧的页面。如果你想打造自己的手机、平板电脑的贴吧清爽浏览程序,需要把这2个文件上传到一个国内的服务器即可。只用于您自己的使用,为了防止被收录而引起安全问题,需要对这2个页面进行登录加密处理。

经过实测,这个清爽页的网页总体积,从原页面文件的总和2.86兆降到了只有47.1K,减肥相当明显。可见,如果用手机、平板电脑来浏览这个清爽页,会快很多。这47.1K当中,其中PHP所产生的动态的HTML页是13.1K,只加载了.png的文件共34K。

但是,只有1个缺点,清爽页不能回帖发言,这是因为贴吧的程序的限制,可以在清爽页上建一个原页的链接,需要留言的时候打开原页进行留言。

9条评论:
1   随望淡思 2013-09-04 20:14
这不怕它官方修改网页,不管怎么改都依旧能提取正确内容么?
2   自由勇 2013-09-04 21:23
贴吧隔一段时间会修改,但是短期内改动不太大。当提取不正确的时候,需要相应地修改。
3   XIN 2013-09-07 16:29
程式可否提供下載?

自由勇 2018-11-30 10:11
抱歉,这个程序较难发布,我现在也突然有2年多以上没有用了。

这个程序难发布,因为这个应用产生的原因纯属是因为贴吧上的头像、签名很眼花缭乱,自己急需一个清爽版,由于网上找不到,只好自己写;二是这类可能需要经过百度许可,开发者个人怎么用都不会有问题。

4   随望淡思 2013-09-13 22:23
话说现在百度贴吧很浮躁呀,垃圾内容一堆,各种谩骂之类。为了看它的内容专门搞这东西貌似有点不值得。
5   自由勇 2013-09-14 07:26
说得很对,贴吧上没有教养的帖子特多,也没人删除。但是没办法,有些内容还是有价值的,有些专业的话题只能浏览贴吧了。
6   平顶山 2013-09-22 10:36
很不错吧,不过我怎么逛贴吧。可以把源码分享下
呵呵
7   马光 2013-09-29 18:37
百度贴吧很少进去,太乱太杂了。
8   Bairrfhoinn 2013-12-30 13:07
贴吧的每個页面都提供举报功能的,见到太不堪入目的内容,我往往会点击举报,话说处理的速度还行,24小时之内必定删除。
9   qvod 2016-11-03 11:18
里面太乱
10   自由勇 2018-12-01 09:59
Trackback来自《Feedval RSS阅读器项目如何跑完马拉松

这类单机版PHP版的程序,这几年在我电脑里写过一些,比如5年前写过的百度贴吧清爽版。

发表评论:
名字: (*必填)
博客: (可省)

正文:

  记住信息?

王志勇:1980-09-26 (44周岁)
程序设计,前端设计。

版权声明:本博客所有文章,均符合原创的定义,禁止转载,违者将必究;正确的方法是贴原文的标题和网址即可。

与此相关的链接
自由勇专栏

Blog存档 Archives

2022年07月
2022年06月(15)
2022年05月(20)
2022年04月(16)
2022年03月(9)
2022年02月(9)
2022年01月(10)
2021年 +

2020年 +
2019年 +
2018年 +
2016年-2017年(9)
2014年06月-09月(10)
2013年 +
2012年 +
2011年 +
2010年 +
2009年 +
2008年 +
2007年 +
2006年 +
2005年09月(4)

Copyright © 2006-2024 auiou.com All rights reserved.
此Blog程序由王志勇编写