如何从你的缓存分析全世界

版权声明:此文章如需转载请联系听云College团队成员阮小乙,邮箱:ruanqy#tingyun.com

这是我去年十一回来就开始计划的实验,重装系统之后将QQ存储文件的文件夹放到了我的备份盘里, QQ会把你的聊天记录和图片分开存储,而且群组和好友也是分开存放在两个文件夹里的,好友G:\Tencent file\<your qq number>\Image\C2C,群组G:\Tencent file\<your qq number>\Image\Group。尽量保证电脑长时间开机,并且保证QQ一直在线,这样,每当QQ群里接受到消息之后,图片就被保存在了你的本地硬盘上。所以有人在群里爆了照再撤回其实是可以找到的,偷笑偷笑,只要找到Group文件夹里最新的照片就好了。

3.png

随着图片越来越多,QQ会把近期缓存的图片整理到一个新的文件夹里去,每到4000张图的时候就整理一次。我加了90多个QQ群,一半以上是千人群,6个月之后我的文件夹就变成了这个样子。

缓存了将近7个G的图片,一共十万五千张。

3.1.png 

这次不讨论聚合和图片分类的问题,我们简单的统计一下直接从图片文件所携带的信息。这些图片一共有三种主要的格式, JPEG,PNG,GIF,通常就是,照片,截图,表情包~~

比例如下:

3.2.png 

除了简单的类型统计呢,我们还可以根据图片的创建时间来统计信息,当然在登录QQ的一开始,也会因为大量的接受图片而导致一个时间序列上图片数量出现极值。

时间序列尺度在周,分钟,和天的变化情况就显而易见了。

3.3.png

3.4.png 

哦,周末人们在网上竟然比平时少了一半,可能是活跃的人少了,也可能是活跃的时间少了,但是我认为,大家在家睡到12点的可能性更大一点,谁叫我加的都是工科群。

从每天的数据中可以看到,竟然到了1点多夜生活才结束。然后第二天6点多陆续起床,12点又开始去吃饭去了,有多少人还在加班,等等,图像上都显示的清清楚楚。

再看一年中的数据,好像周期性很强烈,一到周末大家就睡觉了嘛?那么,二月五号左右我们在干吗?怎么那么低?原来是在过年。那怎么有两天是0?好吧,我在往返的火车上。

等等,如果PNG代表截图,那可能表示大家在讨论问题。如果GIF多一些,可能表示大家在斗图水群啊!我好像找到了你们不工作偷懒的秘密!让我们来分别看一下三种图片的动态变化。

3.5.png 

过年的时候大家更喜欢把拍的照片分享到群里!

那么周的呢?

3.6.png 

左侧是总数,右侧是百分比,大家在周末,更少讨论工作,也很少聊天,竟然有四分之一的人选择外出度过自己的周末!让我很是诧异,只有我一个人会自然醒么?

对了我们还有图片的宽高信息:

3.7.png 

加了对数之后的分布情况,貌似看不出什么,那直接用散点吧

3.8.png 

几跟线若隐若现的样子,连起来看看好了

3.9.png 

这下知道那些线是什么了,是手机屏幕大小和电脑屏幕大小。斜线就是屏幕的长宽比啦。也很容易看出那些屏幕占了市场的主流。那1:1的?有这种屏幕??应该是截图的时候截的图长宽比在1左右浮动吧,看到条线也是最粗的。

顺便看了一下那些图是最常用的。腾讯为了减少图片在网络流上的浪费,对于md5一样的图片,他们在聊天记录里的名字是一样的!值得一提的是,一张gif动图的第一帧如果和某个静态的jpge图片一样的话,那么他们的名字也是一样的,基于这个原理,统计了一下29个文件夹下出现次数最多的图片前三名,竟然是这个:

3.123.gif3.1234.gif3.12345.png   

果然还是表情包,可能更容易反应大家当时的心情吧。帧数最多的是

2.12.png 

贪吃蛇。两帧的就都是bling bling的表情了

同事根据图片大小,把所有16*16附近的图片全过滤出来就可以得到一套表情包。

3.12.png 

好了此文到此结束,这次不讨论过多的模式识别和监督学习之类的东西,希望大家也能在想不到的地方得到想不到的结果,希望能对各位有所启发。看完后希望你们也能给个这样的表情。

 3.123.gif

THE END

想阅读更多技术文章,请访问听云技术博客,访问听云官方网站感受更多应用性能优化魔力。

关于作者

李慧斌

不忘初心~充实就好~

我要评论

评论请先登录,或注册