在上一篇文章中,我列举了一些我认为有极度人工流量可能性的案例,现在接着跟朋友们分享。案例本身没有分类,而是想到了就写,因此如果你从一个案例迅速切换到另一个案例觉得有些突兀,我只能请您原谅。作为补救,请在留言区提出你任何觉得不太明了的地方,我愿一一解答。
由于我们的广告主越来越多的和国内知名的互联网平台合作建立一个小网站(被行内称为minisite或者microsite)推广自己的产品或服务,因此这些minisite实际上就成为了知名互联网平台为广告主提供广告服务的一种形式。随着这种形式越来越频繁的使用,广告主越来越希望在minisite上获得更多的流量(更多的流量意味着更多的广告受众),并且开始以流量的多寡来衡量与这些知名网站合作情况的好坏。这就使minisite成为人工流量的重灾区。除了在上篇中列举的一些minisite的怪异流量现象,我们在下篇中继续讨论这个领域的问题。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
-
可疑的流量来源之一:奇怪的质量分布
我们一般用Time on Site和PV / V来综合评定流量的质量(quality),当然也会看bounce rate和action rate之类的比例。在研究具体流量的质量前,我想请您先同意我的一个基本观点,那就是:如果不是非常特殊的网站(或网页),流量的Time on Site(或Time on Page)与PV / V应该是成正比的关系。当然,这个基本观点是基于逻辑的——以人的访问行为来看,访问两页page肯定比访问一页要花的时间长。因此,当我发现大量的流量忽然出现了时间越长,PV / V越小;或是PV / V越大,而时间越短的情况的时候,我就彻底的奇怪了。上个图先:
图1:至少,这个流量的质量分布是可疑的
图中所示的是某个网站的流量来源的质量分布,圆饼(Bubble)的大小代表着Visit的多少,黄色的线代表这个站点平均的Time on Site和平均的PV / V。从图中我们可以看到,左下角的流量质量不高,而右上角的流量质量很高(有更长的时间和页面访问数)。令我比较惊奇的是右下角的三个流量源,它们挤在一起,坐拥30%以上的总体流量,且具有相同的访问行为特征——访问的页面数很多(6、7页之多!),却只有很短的页面停留时间(最高也不过40秒钟),令人啧啧称奇。再看看传统的高质量流量源——(direct)/(none),大概也不过1、2页的访问。
当然,流量质量超过(direct)并不奇怪,但是PV/V超出它3、4倍,但访问时间却又短出30%且连平均值都超不过,这不能不让人倍感疑惑。如果是您,您会如何判断这种异常?如果再加上看看这几个流量源的bounce rate能低到百分之二三十,我想可能您也该有信心地下个结论了。
Avinash说,“没有细分就没有分析”,在这个细分流量源后发现问题的案例上甚为恰切。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
-
可疑的流量来源之二:查查地理分布
可疑的流量来源有可能不通过研究质量分布就被你轻易的查出,这种情况出现在流量的地理分布过于集中的情况中。
例如,我的同事Edward告诉我,在他曾经做过的一个案子中,他所负责的minisite被host在某个知名下载网站(或是驱动网站?有些不太记得了)上。在事后的分析中发现,全部流量的90%以上来源于河南省的某个城市。这很可疑,因为我们的minisite从来没有专门聚焦于某个地域,从来都是全国范围的——因此我们当然不希望流量都来源于某一个省!
我相信这个知名网站做了一些超出我的同事预计的事情,而且做的并不高明,这实在是太太太明显了。这种情况我自己倒是从来都没有遇到过。你有遇到吗?
图2:这不是真正的GA的截图,不过如果您看到类似的图,应该看看自己的网站是不是被做了什么
-
可疑的流量来源之三:主要流量来自未定义源头
在这个领域发现可疑流量的前提是,你的网站的流量源头都应该事先做好标记。Google Analytics(GA)和Omniture都提供了一套详细的在入口目标URL后附加参数的流量源头标记解决方案,其中GA利用的是UTM Tag,Omniture用的是CID Tag,二者所用的标记参数完全不同,原理却是毫无二致的。
现在,我们假设某个广告主的minisite的所有流量源头都被做了标记(当然,除了不能做标记的直接访问的流量来源以外),那么我们应该期望大部分的流量都来源于我们做了标记的入口。事实上我的期望大部分没有落空,在大多数我遇到的case中,没有意外的,绝大部分流量都来自于我们做了标记的入口,毕竟直接访问minisite的流量很难超过整体流量的5%,而通过搜素引擎等等其他一些渠道来的流量则微小的几乎可以忽略不计。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
正因如此,如果出现了一些我们没有标记的却又流量惊人的unidentified(未被鉴定的)的流量时,我就会格外警惕。下面的图显示的就是这样的一个特异案例:
图3:pceggs.com/referral其实就是一种变相的click fraud
如果您做过GA的UTM入口标记,那么您一定清楚,所有做过标记的流量源,都不会显示“referral”,而会显示你标记后的名称,比如上图中的“button”、“textlin”等。所以图中第一个流量源,同时也是最大的流量源pceggs.com/referral肯定不是我们预期的流量来源。再看看这个流量源的质量:PV/V只有1.05,Time on Site只有9秒,bounce rate高达95.21%,简直太糟糕了,如果你的个人网站的流量质量也是如此表现,那我建议还不如直接关掉网站另起炉灶。
然后,很自然的,你会问Sidney,这个pceggs.com/referral到底是什么?把www.pceggs.com直接输入浏览器,一切真相大白——你会马上明白为什么它带来的流量会比其他入口的流量大,也会明白为什么流量质量这么糟糕。这不是一种新的商业模式,只不过是买流量的一种方法罢了。如果你是广告主,你认为这些买来的流量有意义吗?从我的角度看,随着广告越来越能衡量后端效果,这种商业模式一定会淡出市场——虽然可能会需要很长的时间,尤其在中国。
-
流量质量突变
在我的工作中,常常会遇到比基因突变还可怕的流量质量突变,这种变化有时候真是惊天地泣鬼神,让你忽然明白,原来网站分析玩儿的也是心跳。看看下面的图吧!
图4:不是过山车,是bounce rate的玩笑
我相信大多数朋友们没有遇到上面的情况,不过这是我真实遇到的,我相信在中国的互联网领域impossible is nothing。图中黄色的线条是visit,蓝色的线条是bounce rate。看看蓝色线条的变化趋势有多么牛X吧,仿佛不这样就不能让我们这些网站分析师们知道它的存在似的。这种图让我恶心,也让我明白一个道理——在WA世界中也许知道太多并不是好事。
[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]
写到这里,我准备停笔了,但我的故事似乎不会停止。就在上个星期,我的团队又在处理一个棘手的富媒体广告(Richmedia广告)的监测——出了些状况,因为一般的富媒体广告内部有程序,有互动的action,而我们的这个富媒体广告则更加复杂,已经类似于一个flash的小网站。正是这种复杂性,我们对这个广告内的所有action都做了严格的定义,以期监测所有的广告内的互动情况。最终,我们的监测成功了,但我们的数据一塌糊涂,数据结果绝对不合逻辑。在我们确认没有任何监测方面的问题后,所有问题发生的原因都指向了广告所在的网站平台。最后,我们终于明白了,richmedia本身的复杂性,让网站平台们难以捉摸,因此给我们的数据当然乱七八糟了。等我们培训了每一个网站这个广告的内部结构和关联关系后,数据重回完美,世界清净不少。我能说什么?我在无语的同时,奉献给大家一个最苦最苦的微笑。:)
最后,如果我的读者您是广告主,我将挖心窝子的对您说一声:“忘记流量吧,因为很多时候流量的多少和广告效果的好坏成反比。数字只是游戏,您永远需要关心数字背后的真正质量。”
只是掀开了一个小角。。
其实还是有些没说的。哈哈。
总结一下方法:辨析真假需要结合四个Rate,
Click Through Rate
Conversion Rate
Action Rate
Bounce Rate。
哈哈,总结的不错!
地理分布常常是一些网络广告公司吹嘘产品特色的部分。如何做定向和过滤,由于国内认为因素太多,做假帐也是司空见惯的。
之前Google自己的系统可以细分到直辖市和省,广告投放到了上海,用GA看地区分布,96%以上是上海地区的访问。还是听公正的。
多谢Kurt!嗯,如果特定区域做优化,那就另当别论了。
我已经不敢再使用UTM Tag,因为这些流量没办法通过GA看reffer信息,有的网站就是用隐藏嵌套和弹窗冒充有效点击,这个时候用GA就毫无头绪可查。
感谢老菜鸟的经验之谈。如果想要冒充utm流量,那的确是很轻易的。我的vendor可能也用了类似的方法。GA的作用不在于防止作弊,GA的初衷是为了帮助用户优化网站,它的前提是,你总不会对自己的网站作弊吧!:)
的确很怪,我也有不少流量找不到来源~
如果你们发现fraud,会告诉广告主么?有一次我遇到Search Engine的问题,Key words 点击分布非常不均匀(排名第一个kw每日点击在200个,排名第二个kw大概只有20个),虽然这个现象和kw选择有关,但是我始终觉得差距不应该这么明显(因为都是在一个campaign里买的kw)到现在也没想明白为什么。
坦率的说,这是一个非常敏感的话题。我认为需要分情况:一般我会在证据确凿的情况下告诉广告主,但并不是每个广告主都愿意听这些的。:)
楼主的分析很好。怎么说呢,第一点中关于网站traffic质量的评估,暂时对Time On Site保留意见,如同一楼说的,industry standard应该是conversion rate了. 比如对于典型的B2C网站来说,一般的time on site大概是十分钟左右,pageview per visits大概是10到14,跟其相关的另外一个很重要的因素就是网站架构的友好性设计,是否有利于用户找到产品,快速checkout. 我就曾经碰到多很多情况是time on site或者是pv/v下降,但是CR反而上升的情况,例如将check out流程进行优化,就会出现类似的结果。
我觉得Omniture有两个参数设计得非常好,远超coremetrics,一个是participate rate,另一个是自定义的quality.比较有代表性的是participate rate,可以看到每个页面或者是某个功能对某项行为(conversion, action, etc)的贡献度。 比现在我们讲的time on site, pv/v好很多。
非常感谢您的评论,的确是真知灼见!
对于Time on site和PV/V两个metrics来说,我建议大家结合起来看。但并不一定Time on site和PV/V就一定是正比关系。即如您所说的这种电子商务的网站情况。
所以,我觉得需要根据不同情况——或者说更准确的说是不同的网站的情况来判断。同样的数据结果对于不同的站点解读起来应该不同,很可能对一个是合理的,对另外一个反而不合理。这里我想强调的是,如果发生了不合逻辑的事情,就值得去仔细研究。
我想问下老师,阿里妈妈网盟的流量到底是真是假呢?
每次跳出率在80%左右,停留时间才只有几秒。平均访问页面也才只有一页多。
这样是假的流量吗? 老师能帮忙分析下吗?
谢谢!!
回复就要懂:不一定是假的流量,但至少说明了流量和网站不匹配。