网赢中国专注大数据营销 [会员登录][免费注册][网赢中国下载]我要投稿|加入合伙人|设为首页|收藏|RSS
网赢中国是大数据营销代名词。
网络营销
当前位置:网赢中国 > 行业资讯 > 行业动态 > 网络营销行业动态 > 从数据挖掘的角度看草榴社区
从数据挖掘的角度看草榴社区
编辑: 发布时间: 2015-11-24 10:24:51    文章来源:互联网的那点事
网络营销



摘要:提示:本项目是基于“使用PHP语言对网络数据进行采集与分析”的一次实验。可视化结果不包含淫秽色情信息,营造健康上网环境从你我做起! 采集到的统计数据样本说明 数据来源:草榴网站《达盖尔的旗帜》版块100 页内容, 时间跨度 20150605至 20150907 。选择此版块是因为这个版的内容都是由注册的用户生产的,具有一定的分析价值。 8537 条主题帖的 ...




提示:本项目是基于“使用PHP语言对网络数据进行采集与分析”的一次实验。可视化结果不包含淫秽色情信息,营造健康上网环境从你我做起!



采集到的统计数据样本说明



  • 数据来源:草榴网站《达盖尔的旗帜》版块 100 页内容, 时间跨度 2015060520150907 。选择此版块是因为这个版的内容都是由注册的用户生产的,具有一定的分析价值。

  • 8537 条主题帖的标题、发帖时间、每条主题的回帖数量、发帖用户。(共由576个用户生产)

  • 12,8841 张图片的图床绝对链接地址

  • 1,4568 页回复帖

  • 13,0704 条回复的发表用户、回帖日期时间

  • 1,1250 个用户的用户名、注册时间、最后登陆时间


让一起来品味一下这个神秘社区的数据。



8537 条主题信息中总共提取出了 576 个用户,三个月中平均每个用户发表 14.8 篇主题 排名第一的用户发帖数量更是达到了 276 篇。猜测一下,看来所有的网站都需要一部分活(ban)跃(yun)用(gong)户充实内容啊。 这里面真正的原创帖的比例能占到多少已经不重要了,内容才是王道!!



当我码完这段js代码刷新浏览器查看结果的时候,整个人都不好了!!城会玩!城会玩啊!大家看排名第1和第6的关键词, 把和自己女朋友、老婆XXOO的照片分享出来真的那么好玩儿么。另外,让我们回归到小学语文课,来,请用以上关键词造句…… 你用上面的词组成的句子就是发帖者们所热衷的事情…



可能只看这一张图是没有很大的代表性的,表面上只能看出从8月份开始主题新增数量开始大步的上涨,什么原因导致的呢, 过一会在下面看到用户新增情况图的时候就会恍然大悟,对,大量新用户的加入。



从128841个图片url中提取出来的图片网盘,ihostimg.com 毫无疑问遥遥领先,难道这是CL的副业?这之间到底有什么 千丝万缕的联系我先不瞎猜了,感兴趣的朋友可以自己想办法再去了解(不用梯子也可以访问!)。另外,大家注意排名倒数第二的图片网盘, sinaimg,对,就是你知道的那个新浪,sinaimg是新浪旗下的开放云存储服务, 地址在这 “新浪作为国内10多年领先掌握全国最先进的全分布式系统架构和存储技术之一的公司,为你的 XXOO私密照片 存储提供一站式解决方案” 233333



这张图代表的是11250个用户账号分别是那一年注册的,可以看出2007-2010年和2011-2014年这两个时间段相对数量还是 比较平均的,50.6%的用户是在今年注册的,难道今年大范围的开放注册了。有邀请的码的朋友请联系我,求码!求码!



这张折线图和上面的那张基本展示的信息是类似的,分类精确到每个月。



理论上说,只要是网站继续正常运营下去,且无论统计哪个时间段,这个图会一直保持这个状态,统计数据的基础是11250个 账号的最后 一次 的登陆时间,每次登陆都会用新的覆盖旧的,右边的顶点越高代表了用户重复登陆的次数越多,网站的运营越正常。



130704条回复帖的时间段分布情况,从8月份开始互动明显越来越多。单独看意义不大,只能看到最近互动增多,但是通过与 每日主题发表数量和新增用户图放在一起看,这三个趋势是成正比的,注册用户增多导致新增主题帖增多,不断的新内容产生带动了论坛的 活跃度,从而产生了更多的互动回复内容。



这张图的数据是从13074条回帖时间统计出来的,其实这张图的最终结果和我预计的还是有挺大差距的,原本我以为用户 访问的高峰期会是晚上的9点-12点,而真实的用户在线高峰期顶点确是上午的10点,10点不是大家刚刚开始投入工作的时间么。


后记:


忘记了从哪里看到过一句话:“互联网上没有垃圾信息,只有放错位置的资源”,web数据挖掘方面还是很值得研究的,开发语言也没有优劣, 用自己最熟悉的语言去解决问题就是最好的实现方式。先解决问题,再优化过程,结果最重要!此次试验仅仅针对CL的一个版块进行了表面数据 的分析,我相信,如果更用心的话还能分析出更多的其他东西。比如:将采集到的10几万张图片下载下来,是不是可以作为图像识别系统识别色情图片的 训练素材?我只是采集了注册用户的用户名、注册时间、最后登陆时间等有限的几个字段,如果把用户在论坛内的等级、贡献值、回帖数量等信息也采集下来 结合其他字段进行加工和分析是不是能得出更多的有意义的结论呢?


出处:http://1024data.sinaapp.com






网络营销
编辑推荐
图片行业资讯
  • 田中基仁的马拉松:东芝电子的中国生意隐喻
  • 谷歌回归中国群狼环伺,四大挑战能否Hold住?
  • BAT的O2O五大撕逼战场:终于将自己推向了“绝路”!
  • 平台模式或导致口碑存线下短板
  • iOS10最值得期待的6大新功能
营销资讯搜索
网络营销
推荐工具
    热点关注
    网络营销
    网络营销
    网络营销
    网络营销
     

    大数据营销之企业名录

    网络营销之邮件营销

    大数据营销之搜索采集系列

    大数据营销之QQ号采集

    大数据营销之QQ精准营销

    大数据营销之QQ消息群发

    大数据营销之空间助手

    大数据营销之QQ联盟

    大数据营销之QQ群助手
     
    设为首页 | 营销资讯 | 营销学院 | 营销宝典 | 本站动态 | 关于网赢中国 | 网赢中国渠道 | 网站RSS | 友情链接
    本站网络实名:网赢中国  国际域名:www.softav.com  版权所有 2004-2015  深圳爱网赢科技有限公司
    邮箱:web@softav.com 电话:+86-755-26010839(十八线) 传真:+86-755-26010838
    在线咨询:点击这里给我发消息 点击这里给我发消息 点击这里给我发消息  点击这里给我发消息  点击这里给我发消息

    深圳网络警
    察报警平台
    公共信息安
    全网络监察
    经营性网站
    备案信息
    不良信息
    举报中心
    中国文明网
    传播文明
    分享