那些虚无的网事——人工流量的8大怪现状(上)

  在写这个题目之前,先跟大分享一个幻灯片,跟主题无关,是我发现的一个比较详细的介绍Google Analytics的PPT,大家可以随便翻阅看看。另外有些朋友问我为什么上次WAW没有去,没有别的原因,只是因为父亲来北京探望我,和WAW的活动冲突了,所以还是先尽孝心,请朋友们原谅,下次聚会我当然不会错过也不愿错过。不过WAW的主办人是Florian,所以即使我不在,活动一样能保证哦!

  这个文章的题目有些消极,但却是我最想跟各位朋友探讨的。这个题目背后的东西无时无刻不再困扰我,尤其是在我现在的工作中,现在我不再只看网站,我看整个网络营销,因此我就根本无法回避这一事情给我带来的深刻影响。我想跟大家做些探讨。

[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]

  那些虚无的网事,是我的无奈。中国网络营销灰色的现实,创造了一个复杂的、完善的、利润丰厚且底蕴深厚的人工流量产业链,而这个产业链对于我所服务的客户,我所从事的产业都有着非常消极的影响。这是一个“劣币驱逐良币”法则的世界,潜规则将真正具有说服力的东西逐出眼界之外,“乱花渐欲迷人眼”的结果是“假作真时真亦假,无为有处有还无”,到了你不做点儿什么就无法生存的地步,着实可悲。我今天想跟大家分享的,正是想透过那些怪异的事实,跟大家一起集思广益发现真像。

  下面我将列举我所见到的种种怪现象,以及我认为背后可能的原因。不过,我的眼界有限,对这个灰色世界的了解还只是一星半点,如果我的朋友您在看完某些怪现象后告诉我你觉得的真正原因,将是我最想获得的知识,不胜感谢!

  • 流量爆炸

   流量包括网站流量和广告的流量。我们用UV,visit和PV来衡量网站的流量,用impression和click来衡量广告的流量。无论哪种衡量,总之是多多益善,“量多不压身”,总能骗骗洋大傻Alexa嘛,总能忽悠忽悠广告主嘛。所以,当我忽然发现我的一个广告在一个多小时的时间内突然发生了流量爆炸,我竟然没有惊诧。

图1:上图是一个小时前的流量,下图是一个多小时后的表现,我模糊了一些敏感信息(后同)

  从图中可以看到,仅仅一个多小时(请注意上下两个表表头的时间),这个媒体总的广告流量,尤其是impression,被放大了n倍。由于一个小时前,impression数字离奇(或者更准确的是click数字离奇,因为太大了),一开始CTR高的让人难以置信。随着我们对相关站点的警告,impression的毛病一个小时内就解决了。真是叹为观止。

[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]

  光看数据,这简直是不可能发生的事情。我从来不关注impression会变得多么巨大,因为影响这个度量的因素太多了,要知道QQ客户端在一天可以给你的广告贡献1、2亿个impressions!随便一个热门游戏的BBS给你带来几百万一天的impression也见多不怪了。但是,你却绝对不能无视click这个值的大小和变化,比如下面这个图,这是一个连续投放在某个网站上的广告的时分点击量:

 

图2:流量爆炸指短时间的流量激增,一如超新星爆发(注意14点和18点的click)

  如果不是统计工具出了问题或是服务器成了有自我意识的Wall·E,这样的流量趋势是不大可能发生的。14:00和18:00的booming是个不能用常规思维解释的事实。我只想说,如果真的要用人工的手段来做点儿什么的话,拜托,给点专业精神好不好!讲到这里我有一个问题,AdSense(AdWords)是否会屏蔽掉这样的不正常流量?

  • Unique是个好东西

  有一天,当Tenly在研究某个投放在某个媒体上的转换率(Conversion Rate,指click为目标网站带来的visit的数量的比例,conversion rate等于20%,意味着100个click为网站带来了23个visit,其他的click都在页面真正被打开前就关闭了浏览器)的时候,发现转换率低于5%。一般而言,conversion rate在30%~80%的范围都应该是合理的,毕竟不同的广告形式带来的误点击量是不同的。但5%则不可接受,这说明要么是click,要么是visit的数据出了问题。

  Tenly先从click入手,然后立即就发现了问题。他的方法很简单,直接查看Unique Click。Unqie Click和Unique Visitor是很类似的度量,假如一段时间内(这个时间根据不同的监测软件会略有不同,但监测原理都是完全一样的)你用同一个电脑上的同一个浏览器反复点击同一个广告,那么click数值会不断增加,但unique click则不会。click / unique click的数值越大,说明一个广告被反复点击的次数就越多。

[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]

  大多数人不会在一个广告上点多次,只有少部分人过于无聊才会这么干,不过不会造成什么整体影响。但是当我们看到这个网站的click / unique click的时候,我们大吃一惊,比例竟然高达11倍多。这就意味着,平均每个在这个网站点击了相关广告的人,会连续点击10次以上!而其他的网站则都很正常。如果是你,你会得出什么样的结论?

图3:无法相信高达11倍的click/unique click值

  如果用click来计算CTR(点击率),CTR=2.11%,非常高。而用unique click来计算CTR,则是0.19%,回归到一个正常的值。所以我认为unique click才大致是“真人”的点击量。

  Unique真的是个好东西。但是现在也不好用了,原因就是,现在的“网站优化”技术,早已经越过了这一步,这样的低级错误已经很难看到了。所以当我这几天看到这个案例的时候,我才会觉得如此有趣。

  • 千万别轻信CTR能大于1%!

   很多朋友问我CTR大概多少比较正常。我没有答案。可以说我遇到的大部分CTR都出奇的好,往往超过0.5%,甚至高于1%。可是,如果我冒天下之大不韪说出我认为的真像或许您会不信:中国绝大多数普通的网络广告(SEM除外)的真实CTR能有万分之五(0.05%)就不错了,而那些内容庞杂的门户网站的CTR则可能更低。但我们看到最终统计软件的数值却永远远高于这个数。所以当你问我什么是正常值,我真的没有答案,答案的准确性依赖于你想知道真像的诚意。

  不管怎样,过于大的CTR还是值得警惕的,尤其是在impression普遍爆炸的今天,这意味着click值得相应的被放得更大。如果CTR>1%,则表明每100个看到你的广告的人会至少有一个点击你的广告,这个比例太高了,不信你可以立即在你的办公室内展开现场的survey(调查)研究。

[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]

  有些形式夸张的广告,比如忽然全屏弹出而且加上了一个假的“X”(关闭)标记的广告,或者是nude(赤裸美女)之类的欺骗广告会赢得极高的点击率,甚至CTR能超过50%,但这样的“靐广告”我相信你不会使用,这等同于click fraud(点击欺诈)。如果你的广告是正常的Leaderboard,PIP, Skyscraper或是Textlink,而且内容也正常(文字和图片不是过于“挑衅”或“挑性”),请你相信大致真实的CTR范围:

  • 第一屏leaderboard: 0%~0.1%
  • PIP和skyscraper: 0%~0.05%
  • Textlinik: 0%~0.02%
  • 如果是SEM,可能会高于0.5%,毕竟SEM是比较细分的广告投放形式,但高于1%我就有些担心了

  是不是真的比你想象的小?

  当然,上面的数值可能非常武断,毕竟广告投放的点击情况和网站与广告的匹配度有关。但是,相信我,不管内容多么匹配,1%以上的点击率一定值得展开深入的调查。

  • 孤立无援的Action Rate

  看到这个小标题,你可能会有点儿奇怪。Bounce Rate我们常见了,而Action Rate是什么呢?Action Rate不是一个标准度量,但在我的工作中,我已经把它标准化了,用于衡量网页上真正有意义的点击行为。我对action rate的定义是:Action Rate = subpage visit / landing page  visit,可以简单的理解为:从登陆页进入下一级页面的访问量占所有登陆页访问量的比。在这个定义下,action rate越高,意味着有越多的访问在进入landing page之后会点击其上的链接进入更多的其他页面,也就意味着landing page越有效。

  你会说为什么需要action rate这样一个度量?衡量landing page的有效性用bounce rate不就行了?而且很明显,根据Sidney你的这个定义,如果action rate高,那么bounce rate应该肯定会比较低。

  没错,这就是我一开始的想法。直到有一天我发现了一个其后我不断发现的“怪事情”。这个“怪事情”的发现是从一个过低的bounce rate开始的。一般情况下,商业性的网站(比如宣传产品,促销之类)的bounce rate会比较高,能够低于70%其实很不常见,因此当我发现一个大概只有40%的bounce rate的类似网站的时候,我非常惊诧。紧接着,我看到这个网站PV / V 有超过2的趋势,而time on site 则是不可思议的205秒——绝对是相当耀眼的成绩。

[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]

  起初我认为这个网站确实拥有与众不同的好的设计和访问者质量,但是当我在Google Analytics中查看Top Content中首页的Navigation Summary报告的时候,我开始发现我最初的判断完全错了。

图4:能看出来吗?首页存在大量的重复刷新,而真正的内容无人问津

   能在这张图中看出点儿什么来吗?红色粗线框内的两个页面是完全一样的名称,实际上就是首页(/sales/…/?ad=1509)本身。我们只需要看图的右半部分,它告诉我们的是:在访问首页的所有流量中,有53.69%离开了网站,有另外46.31%进入后面的页面(Next Pages)。现在,问题出现了,请看仔细:46.31%的下个页面的访问量中,45.11%是访问的首页本身,只有剩下1.20%的流量在访问其他内容!这表明什么?我记得以前有朋友问过我这个问题,我当时就告诉他,这表明首页存在大量的刷新!

  此外,这个数据还告诉我们,这个页面的Action Rate大致只有1.20%!100个人来了,约有1个人会真正的点击页面中的链接,另外99个人则根本不会点击页面上成堆的有意思的链接了。1.20%的action rate和极低的bounce rate、很高的PV / V以及极长的Time on Site根本无法匹配,简直是孤立无援!但是,真像往往就是在发生矛盾的时候才浮出水面的!

  仔细分析这个数据报告不难重现首页的流量状况:很多访问(visit)进入首页,一部分离开网站(近一半),另外一部分(另外一半)虽然留下来,但不点击别的链接,只是刷新首页。这,无法解释为普通访问者的行为。

  我的第一感觉是木马流量,无数的“肉鸡”,“僵尸”隔一段时间(一般也就是几分钟)就访问一下目标网站,这简直是“黑客们”的小儿科。由于GA在定义Bounce的时候是以single PV为定义的,因此这些访问量虽然只是不断访问首页,但是却不会被记录为bounce,因此bounce rate就会很低,PV / V就会很大,访问网站的时长也变得很长!但完全都是垃圾,对网站一点儿意义都没有!

  你会问,那让这些木马流量继续访问其他页面不访问首页不就行了?一方面从技术上,这些木马流量能够被控制访问某个网站页面,但是要让他们分工继续否问网站中的某些链接可就不那么容易了。另一方面,让木马流量访问其他页面会更明显的暴露。所以,最终的结果就成了图中显示出来的奇怪网站访问表现。

  除了木马,机器人访问量也类似于这种表现。总之,不是真正的人的行为,在GA的细分报告中很容易露出马脚。

[版权归作者Sidney Song所有,欢迎转载,但请事先告知作者并注明出处]

  好了,写到这里,可能你有很多问题了,当然也有很多想跟我讨论和争辩的。我还是那句话,人工流量是个灰色的领域,我不是行家里手,我真心希望大家能跟我讨论争论。我不想影响什么产业链,我只是好奇,我想知道真像。

  后面还有一些其他的内容,避免行为过长,我将这个post分成上下两集,敬请期待。

未经允许不得转载:版权归宋星及chinawebanalytics.cn所有宋星的数字观 » 那些虚无的网事——人工流量的8大怪现状(上)
分享到: 更多 (0)

评论 30

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #-49

    要么不写,一写就激起千层浪。
    这文章的评论估计在08年内造成10条以上回复。

    Tenly16年前 (2008-12-13)回复
  2. #-48

    过于第一部分的流量爆炸,如果是qq那样的弹出式窗口,确实可能一个小时内带来超过10万的pv。如果是新浪的新闻门户,在首页第一屏要闻推一条链接也可能造成这样的效果。但如果是小一点的网站估计很难带来这么大的量,那就得考虑是否是有人在刷流量,刷统计链接了。

    关于Action Rate的部分,Sid观察到的GA里Navigation Summary报告,我之前也很奇怪为什么前一页是本页,后一页还是排第一位的也是本页。我猜想也是本页面刷新,但很多页面都是如此的话很难解释。还有一种可能是GA代码放了两次,打开一次就会两个pv。也可能是该页面有iframe,iframe里也嵌入了代码。GA的报告的有些机制是需要深入观察的,今天在研究urchin的来源分析报告是报告的深入内容,原来以为是和日志一样的“引用链接”,用HttpWatch观察,还有测试后才发现报告的其实是cookie值中的 utmz的 utmcrs。

    bornde16年前 (2008-12-13)回复
    •   回复bornde:非常感谢你这么快的回复。能听到朋友们的回复比写博客本身更要愉快。

        从目前我的经验看,刷impression有多种可能,未必就是人工造成的。例如QQ,随随便便1个小时几十万个impression应该问题不大。你提醒了我。我们更应该关注的是CTR的突变。毕竟一般而言,impression的增加会带来click的增加,CTR虽然不会时刻保持完全一致,但也应该不会急升急降。CTR的突变应该取代分析impression和click突变本身。

        关于前后页都是本页的问题,仍然困扰着我。我也在考虑是否还有其他的原因,比如GA的代码和页面上其他代码之间的冲突。

        iframe我已经排除了,因为iframe的URL一般跟被嵌套页是不一样的,这样在GA报告中不会出现前后页一样的情况。GA放两次这一点也可以排除,一般不出现误操作可能性不大。

        关于你所说的“引用链接”问题,不好意思,没有看太明白,能否解释一下?谢谢!

      Sidney Song16年前 (2008-12-13)回复
  3. #-47

    从流量爆炸的这个 section 当中,我们可以看到前一个小时的 impression 数居然有低过 daily click 的情况,这本身也就意味着,这个数据不真实性。

    Eric Li16年前 (2008-12-14)回复
  4. #-46

    所以比较期望的是这是在什么样的媒体网站上,进行的投放,把它曝光出来,大家也见识见识。

    Eric Li16年前 (2008-12-14)回复
    • 唉。我很想,但是由于工作的关系,还是多有不便。

      Sidney Song16年前 (2008-12-15)回复
  5. #-45

    Unique是个好东西

    我前段时间分析某SE网站的关键字SEM 的投放情况,也发现同样的事情。
    因为发现该SE网站的数据和自己监测到的数据的差异非常奇怪。
    大多数天是正常的,双方数据基本吻合 ,但有几天数据异常:我们监测到的数据只有该网站提供数据的 30%,甚至更低。

    仔细深入的分析, 比较过该SE refer 的 click 和到网站的 Unique Visit 后,
    居然发现不少 UV 居然来自该SE的 SERP 的 200~300 多个click,换句话说就是有某一个 UV 在 该SE 上点击了200~300次我们投放的关键字,很搞笑的事情吧。

    根据以上的情况进行大胆的推断:
    1) 该SE 另有开发脚本程序在帮你快速消耗你的帐户资金。(如果是这个可能的话,就比较恐怖了 ^_^!)
    2) 该SE 的过滤机制存在漏洞,很多无效的点击没有被屏蔽。
    如果是1) 的话,相信它也会做的比较平整的,而不会这么突兀和低劣。
    感觉 2) 的可能性比较大,别的恶意爬虫所为? 还是龌龊的对手所为? 不得而知。

    千万别轻信CTR能大于1%!

    CTR 的是中国互联网永远的痛,是客户最关心的东西, 也是不同的媒体竞争的焦点。
    通过某些渠道了解到竞争对手的 CTR 是我们的2、3倍,
    起初担心是不同的平台采用的不同的过滤监测机制,顺便就去和 DoubleClick (DFP) 的 consultant 聊了聊。因为长期合作,大家都很熟,他们也直言不讳的告之,其实我们的CTR (0.10%+-0.05%) 左右是一个非常合理的范围,

    反而是某些网站,都在采用某种方式在做CTR 的数据。其实国内很多网站都这样。
    引用上文的话:“这是一个“劣币驱逐良币”法则的世界,潜规则将真正具有说服力的东西逐出眼界之外”

    是的,目前国内的互联网市场仍然是一个无序的竞争。
    面对国内的这种竞争环境,面临销售的反馈,销售经理的 complain,以及公司quota的压力。
    CTR数据,做还是不做?

    Eric Li16年前 (2008-12-14)回复
    • Eric,感谢你的经验分享!我的数据只是我的经验值,但问问其他朋友,发现他们也觉得差不多。当然,如果大家有其他的数据,我很希望能看到更多的佐证或是反证。

      关于SE的情况,我认为从某种程度上,点击欺诈是存在的,而且方法可能比你想象的还要原始。有朋友能提供这方面的线索吗?

      Sidney Song16年前 (2008-12-15)回复
  6. #-44

    To:Sidney
    抱歉,我说“引用链接”确实没说清楚。GA中记录referral实际上有两个参数,一个参数是utmr,会完整记录上一个引用网页的Url,并且也带上http,比如utmr=http://www.domain.com/index.html。utmr记录规则基本和日志方法中记录的是一致的,记录的是“点击”的来源。另外一个是utmz(cookie值的一个),其中的utmcsr记录来源的主机名,比如utmcsr=www.domain.com,utmcct记录请求网址,比如utmcct=/iframe/318/2008/0813/12.html。这个utmz记录的是“访问”的来源,cookie在一个浏览器进程中不论点击多少页面,不会变化。

    我也是这几天才发现这个区别,之前一直以为GA的来源分析也和日志方法是一样的。所以觉得应该好好探索下一些统计工具的具体原理是怎样的。否则想当然地去理解一些报表总会出现很多不合理的情况,更可怕的是错误理解了数据。

    还是继续探索下图4,首页刷新的问题。如果左边的来源记录的到底是 utmr,还是urmz中的utmcct呢?

    bornde16年前 (2008-12-14)回复
    • To bornde,感谢你的详细解答。

      我认为,图4的左边的来源记录既不是utmr,也不是urmz。因为图左边的链接和右边的链接都是站点内链接,这两个参数好像在内链的时候并不启用。

      关于utmr和utmcc的区别,我有两条关于我自己网站的记录,一个是direct的,一个是从百度搜索得来的,两个不一样。分别是:

      从direct:
      utmr –
      utmcc __utma=148702437.3433349195719022000.1229345761.1229345761.1229345761.1;+__utmz=148702437.1229345761.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none);

      从百度:
      utmr http://www.baidu.com/s?wd=网站分析在中国
      utmcc __utma=148702437.3433349195719022000.1229345761.1229345761.1229345761.1;+__utmz=148702437.1229346029.1.2.utmcsr=baidu|utmccn=(organic)|utmcmd=organic|utmctr=%CD%F8%D5%BE%B7%D6%CE%F6%D4%DA%D6%D0%B9%FA;

      我没有完全明白其中的机理,准备找时间恶补了。不过光看这两条,还是有点儿意思的。

      Sidney Song16年前 (2008-12-15)回复
  7. #-43

    @bornde
    安装Urchin日志分析的Cookie应该是第一方Cookie吧?

    @all
    我注意到图4的点击流当中,存在额外的跟踪机制。如果我没猜错的话,应该是采用类似 http://www.iamfisher.net/2008/09/google-analytics.html 提到的站外点击行为记录吧?
    如果我这个猜测没错的话,我曾注意到一种未经证实的可能,即:这种基于document.onclick 的统计,似乎就确实会造成一次访问某页而GA却记录为连续两次的同一页面记录。加上outgoing这一次,似乎就变成3次?

    我的以上猜测,在使用以上点出跟踪代码的网站上都存在。

    fisher16年前 (2008-12-14)回复
    • 回复fisher:你的观察非常仔细!感谢!

      想说一下的是Urchin和GA都是用的第一方Cookie。3rd party的cookie对于监测的准确性大打折扣。

      关于外链跟踪机制,我将在以后的文章中介绍我们的外链监测链接。outgoing就是我们用来标识外链链接的点击行为的。通过httpwatch看,没有发现代码会额外trigger GA.js一次,我觉得GA记录两次的情况可能跟JavaScript的编写情况有关。另外我们在做这个外链链接监测代码的时候,用了甄别语句,如果是内链,这个语句将会做出判断,然后直接不执行外链链接代码,这就避免了一个页面被监测两次的情况。

      我不是很专业的编程师,编码是我的好朋友赵乐先生帮我做的,征询他的许可后,我愿意跟大家分享这个代码,看看是否的确没有问题,或是有可以进一步优化之处。

      Sidney Song16年前 (2008-12-15)回复
  8. #-42

    受教了,谢谢。

    我考虑过类似你说的Action Rate的方法——只有当用户完成一系列特定行为才算做一个“有价值流量”:)

    Mars16年前 (2008-12-20)回复
  9. #-41

    “孤立无援的Action Rate”,看到这个小标题的时候我就意识到该讲点什么了。

    这也是一个烦恼我很久的问题,因为我一直将二跳率作为重要指标来量化某一流量来源渠道,但GA里边,并没有把同一页面的刷新剔除。我目前采取的方法就是自己减掉那一部分,这样能拿到准确的数据,但很麻烦。

    例如我为某一渠道做了特定的着陆页面,出于某方面考虑,那个着陆页的内容比较多,部分访客可能需要刷新才能看到完整内容,这么一来,问题就出现了,出现了类似本文里边的伪二跳率,但这问题又无可避免,毕竟它是访客一个正常的操作。

    网络营销人16年前 (2008-12-20)回复
  10. #-40

    第一次来你网站,内容写的真不错.
    有些名词还不是太懂
    有时间,要把你网站内容看一边,估计就没问题了

    把统计知识看完,估计还能通过GOOGLE Adsense作弊呢 嘿嘿
    别说我不道德哟…钱….

    签名设计16年前 (2009-01-14)回复
  11. #-39

    我的网站http://www.qingniaosheying.com,一个普通的企业站,每天的直接流量竟然高达13%,我感觉这个数值有点太大了,但是不知道如何下手。我的跳出率竟然是67.75,貌似中国网站的跳出率应该在90%以上。不知道如何解决。

    mengyi-hack14年前 (2010-08-28)回复
    • 中国不是所有网站跳出率都这么高。日子越久,越发现其实中国很多网站的跳出率并不高。跳出率并没有一个标准值。

      Sidney Song14年前 (2010-09-02)回复
  12. #-38

    学习一下。

    时尚网14年前 (2011-03-10)回复
  13. #-37

    最近也在研究线下推广追踪的问题,想问一下,文中提到的Unique Click这个指标是怎么获取到的?

    lane.hou12年前 (2012-10-24)回复
  14. #-36

    回复Lane.hou:

    很多广告监测工具都有这个指标,例如DoubleClick。

    Sidney Song12年前 (2012-10-24)回复
  15. #-35

    第一段提到的GA的幻灯片的页面不存在了哦

    Brian12年前 (2013-04-27)回复
  16. #-34

    请问PIP全称是什么?谢谢

    Louis11年前 (2013-10-13)回复
    • 回复Louis:Picture in Picture(画中画)

      Sidney Song11年前 (2013-10-13)回复
  17. #-33

    action rate是不是二跳率呀。如果不是,那和二跳率有什么区别呢?谢谢

    paul11年前 (2013-10-15)回复