We are things that labor under the illusion Of having a self. This accretion of sensory experience and feeling. Programmed with total assurance that we are each somebody. When, in fact, everybody’s nobody.
——Nic Pizzolatto “Rust, True Detective”.
【作者:宋星。作者系网站分析在中国创始人,WAW中国创始人】
首先预告我们在8月26日北京的WAW活动,目前还剩50多席,有兴趣的朋友不要错过。活动内容和报名方法请见:http://www.chinawebanalytics.cn/waw-bj-08-2015/。
【好了,正文开始:】
前一回(前一回内容请见这里:互联网人群画像和你所不知道的真相(一))我们讲了互联网人群画像的构成要素的结构、PC端用户唯一身份识别的理想状况和真正的现实,在这一回中,我们开始讲Mobile端用户和跨终端(跨屏)的唯一身份识别问题,同样是理想和现实并存的故事。:)
Mobile端的唯一身份标识
Mobile上的唯一身份标识看起来比PC上要好,因为谁也不能轻易干掉自己手机的IMEI号码,也没有几个人知道怎么样在苹果手机中清除IDFA。所以在mobile端的唯一身份标识应该既简单又美好。
但其实不然。
Mobile环境的复杂度比PC有过之而无不及。首先,mobile上用户对网站和APP的使用大约各站半壁江山。光这一点就比PC痛苦万分了。但是,为了让你更能够了解mobile上到底发生了什么,我们先假设两种最简单的情况:mobile上只有网站的情况和mobile上支持APP的情况。
假如这个世界上所有的mobile都只支持网站,而不支持APP,那么我们可以基本上把mobile当做PC,用cookie来解决这个问题。不过,就算到了mobile上,cookie本身的短板还是一切照旧。不过,你会说,mobile上不是有IMEI或IDFA号码吗?难道不能弥补cookie的短板吗?可惜的是,mobile上的网站对人的唯一身份标识不能用这些跟手机捆绑的识别号码——无论对网站做何种技术改造,都不能让网站获得这些ID。所以,如果mobile只支持网站,那么你可以认为它就跟前面讲的PC的情况没太多差别。
假设这个世界上所有的mobile都支持APP呢?那会是另外一种景象。前面讲过,APP不能用cookie,但APP的追踪却可以用IMEI或者IDFA等。不过,它们会好用吗?
先看IMEI,IMEI一定准确吗?如果这个世界上不存在水货机、翻新机,而全部是经过工信部认证批准的通信设备的话,那么IMEI是最靠谱的。但我们在中国,水货泛滥,翻新机也很多,这些来路不明的手机的IMEI就有可能是人为修改的。所以很多手机共用一个IMEI号码,或IMEI号码都是0的情况就很多了。这种情况造成IMEI的唯一身份的识别率未必高于cookie。另外,IMEI是机器硬件的编码,这些硬件编码都涉及到硬件安全性和隐私问题,因此使用它们不能明目张胆。
替代IMEI的方案是一个被称为OpenUDID,这是被各广告平台广泛使用的开源方案,但随着AppStore开始拒绝接受使用UDID的应用,导致OpenUDID无法被不同应用共享相同的值,注定了上面提到的这些ID们不得不退出历史的舞台。
需要提醒的一点是,IMEI这种跟手机硬件绑定的识别符,只能在安卓手机上起效,苹果手机iOS系统通通把它们封锁了,作为唯一身份标识是没指望了,除非是越狱后的iPhone。
不过苹果没有把所有的路都堵绝,它关闭了所有的门,但是“良心发现”(事实上是不得已而为之)开了一个小窗,这个小窗就是IDFA。IDFA是苹果手机独有的用户唯一身份标识ID。这个东西能够实现对APP上用户的唯一标识。我们有救了吗?
好一点,但是只能用于识别自己开发的APP的唯一用户,别人开发的APP用户的IDFA,你就完全没法知道了。因为IDFA不像前面讲的第三方cookie,可以由一个广告公司所掌握,而IDFA是完全被苹果公司掌握的。进行人群画像的时候,对于用户唯一身份标识的服务商几乎都不是APP开发商,而几乎全部是第三方(广告公司或者第三方数据公司),因此只能通过跟众多APP开发商合作才能获得多个APP中同一个用户的IDFA,也才能给同一个用户进行画像。这基本上不是技术问题,而是纯商业问题了。商业问题的难度在于,跟一家两家合作容易,但是跟一百家两百家合作,而且还是“与虎谋皮”(拿别人这么机密的数据信息),难度太大了。毕竟你不是BAT这样在市场支配地位的厂商。
所以,对用户进行画像,安卓手机要好于苹果手机,原因就在于苹果的封闭性,第三方的生存空间很窄小。
上面这些都还不是最麻烦的问题。
工程师们告诉我,移动端最大的麻烦是终端的极端多样性,硬件、操作系统、软件等等,全部是碎片化的,而利用了各种不同的人的标识手段,相互之间也没法互通互联,所以,移动端的唯一身份识真的很难。
可是,这还只是在我们假设的最简单的两种情况下!
现实世界中,mobile既支持网站,又支持APP,同一个人基本上都既会用mobile,又会用APP,我们能够实现跨mobile和APP的唯一用户识别,并在这个基础上做人群画像吗?
技术方法目前没办法。虽然有一些变通的方法,比如设置一个APP和网站通用的ID系统,或者需要同一个用户先用APP,然后又用网站才能实现一个功能什么的,但这些变通的方法只能在很小的局部范围内使用,完全不是通用解决方法。这离我们需要的人群画像的对所有网民的唯一身份标识还相距甚远。
所以,移动端同样不存在准确的唯一身份标识,这意味着我们并不拥有全局性的上帝视角,无法记录任一用户使用mobile上的全部网站和APP的相关信息,或者退一步,不说全部,想知道大部分网站和APP的相关信息都很难获得。甚至,即使是仅仅想知道这些网站的URL和APP的名字都不那么可能。
跨设备的唯一身份识别
终于讲到了跨设备的唯一身份识别,估计你已经等不及了。这个领域可是曾经被热炒过一阵,但用在人群画像中似乎并没有听闻什么案例,后来似乎有些“不了了之”。原因何在?
原来,既然在一个mobile设备内,想要实现一个人在同一个设备上跨APP和网站的识别都没有全局性的通用解决方案,那么一个人使用多个设备就更没有全局解决方案了。你早上用手机、中午用PC、晚上用iPad访问互联网,然后让一个广告商(或者一个第三方服务商)知道是同一个人在使用这些设备,难,真是太难了。
部分互联网服务提供商(过去它们常常是一些媒体)具有跨设备唯一身份识别能力,比如,它们拥有强账号体系。所谓强账号体系,是指无论你在PC上还是手机上使用它们的服务或内容的时候,都需要登录自己的账号。这意味着它们“先天”就能知道你是同一个人。
另外还有一些服务商,它们可以通过判断不同设备经常同时出现在某一个IP号段的现象来判断这些设备是不是属于同一个人。这个方法很可行,因为无论是APP还是网站,获取设备所处的IP的难度并不大,这样就可以在没有强账号体系的情况下,判断这些设备是否属于同一个人了。如果算法得到,数据也充分,这种方法的识别率随时间流逝,可以变得相当精准。当然,我指的相当精准是能够有超过30%的识别率,80%以上,利用这种方法基本上不太可能。
如果没有强账号,也没有技术方法,那么最后一种跨设备的唯一身份识别就是通过一些营销手段来实现。比如,要在手机上扫码(比如获得优惠券),然后在PC上实现某个功能什么的(比如完成购物)。这听起来够折腾的,但是确实比完全没辙强。当然,这种跨设备的唯一身份识别的范围那就是极小极小了,因此不具备人群画像所需要具备的普遍性。
但问题在于,如果你希望得到某个人(或者是某群人)的画像,你不太可能只依靠某一个互联网服务提供商就能完成。因为这个人(或者这群人)的互联网使用行为一定不会囿于这一个服务提供商的范围内,而是遍际于互联网的各处——他们一会儿用百度搜索点什么,一会儿用腾讯QQ聊聊天,一会儿用淘宝买点东西——没有任何第三方可以同时获得同一个用户在不同设备上使用各种互联网服务的数据。即使可能,难度也极端巨大。
所以,我们希望的用全网用户数据来给人群画像那根本不可能,所有的人群画像,都只能基于局部的数据。而实现跨设备识别唯一身份,除了少数服务商之外,基本上都只能停留在口头上。这跟数据处理能力,或者什么大数据毛线关系都没有,再牛逼的数据能力也没用,这就是现实世界的事实。
好了,下面我自己总结了一下PC和Mobile端各种用户身份识别方式的优缺点,并不定量,所以仅大家参考:
各种方式识别唯一身份的优点:
点击上图看大图
各种方式识别唯一身份的缺点:
点击上图看大图
在下一回中,我们将继续互联网营销人群画像的探索。下一步,将针对人群画像的第二个构成要素——“个体画像的标签”进行深入探讨。敬请期待!
又是一个技术问题。
现在Mobile App更新里都会加入识别MAC地址的SDK吧?
但是App的“数据孤岛”确实不便于第三方跨App来描绘人群画像。但是对于形成了App矩阵的“XX系”,还是可以更general的描绘人群画像。
目前设备跨屏(pc、mobile、甚至ott)有两种方式:
1、基于同一wifi下的设备跨屏;
2、强账户体系跨屏;
第一种方案理论上可行,实际操作起来识别度有限,需要有庞大的家庭路由器mac样本库,
第二种方式目前阿里在做,腾讯的强账户体系也不错, 百度的账户体系偏弱,其他媒体更不具备此项能力。
不错,期待!
涨知识,学到一些干货,找个僻静的时间,翻翻其他的内容~
不错,都是干货,期待下一篇。。。。。
跨设备的唯一身份识别,定位也是一个方案,目前的定位误差已经很少,应该有一定的识别度
对于大部分没有BAT强账号的网站来说(营销手段 + 定位 + IP段)综合分析识别,会比较有效