谈了那么久的数据共享,怎么还没有感受到它的威力?

Ray Wang
Ray Wang
Aug 26, 2017 · 7 min read

2015年国内掀起了一波大数据交易的狂潮,以国内各大的数据交易所成立为主(当然很早之前就有黑市交易),受到业内甚至是政府的关注和支持。2017年,《网络安全法》颁布,多家数据交易公司被查,国家又给这刚刚有发展势头的产业当头一棒。Adblockchain关注数据交易(下文开始称为数据共享)对广告营销行业带来的改变和机会,对数据共享产业做目前相关信息的整理。

为什么要做数据共享?

人们不做无利可图的事情,特别是上升到企业层面。数据共享带来的好处,科学网博客叶俊杰老师(查看博客,叶老师授权转载)的分析如下:

如果说国际贸易的本质是各个国家和地区的资源禀赋不同,因而贸易(交换、流通、交易)能带来社会生产力的提升。那么数据交易的本质是不是也是因为各个实体的数据产生、处理、应用能力的差异呢?抑或是因为各个实体自身的领域等差异导致的禀赋差异呢?支持这一想法的实例举不胜举,比如芝麻信用除了支付宝的支付信息,还需要学历、交通违规、银行信用等方面的外部数据,而对于芝麻信用团队来说,要自己去收集后面列出的这些信息,显然成本要比相关实体获取这类数据要高得多。比如滴滴打车的路线规划,他显然需要外部实时天气、道路信息的支持。这方面应该不用再强调了。下面想强调的是除了这个明显的本质因素之外,数据开放、共享及至交易之所以能够帮助提升数据的价值,还在于数据的另一个本质属性。

那就是相比于实物的交换与共享,数据的共享有更大的威力,数据可以无损复制,可以很简单的被其他企业或组织使用,而且这个成本非常低,理论上如果让数据有效流动起来,其产生的效益会趋向无穷大。互联网的成功就是因为他激发了网络效应,数据的流动也与之类似,数据如果只是自己使用,即使100%的发挥价值,它也只是一百,如果这个数据开放给别人用,即使数据只能发挥50%的价值(更何况现有的实践说明数据1+1是大于2的),那也是乘数效应。3Com公司的创始人提出的网络技术发展规律“梅特卡夫定律 (Metcalfe’s Law)”表明:网络的价值等于网络节点数的平方,与联网的用户数的平方成正比,即网络的有用性(价值)随着用户数量的平方数增加而增加,即网络的价值V=K×N&sup2(K为价值系数,N为用户数量)。数据的价值与网络的价值类似,也遵循这一规律,即数据的价值与数据的使用次数的平方成正比。

江颖,帷策智能、原力大数据创始人兼CEO认为(原文:技术不是大数据第一生产力,数据交易才能带来应用爆发):

目前能够做大数据实践的,都是自身拥有大数据的部门或企业。最优质、最有价值的数据源往往掌握在政府、运营商、银行以及像BAT这样的大型互联网公司。高质量数据源拥有者总是缺乏开放的必要性和动力,甚至希望对数据进行垄断。但由于内部大数据应用的需求和场景往往较为单一,数据拥有者往往也没有很好的变现产品和手段。

再加上数据获取困难、缺少数据采集意识造成的数据缺失,以及信息安全、信息归属权等敏感性问题,大数据仍然非常小众,看起来很高深,对于绝大多数人来说很陌生的。

但是,高质量数据源偏偏是需要流动和使用,才能激发其巨大的价值潜能。在封闭环境下,数据的价值并没有完全地发挥出来。以运营商数据为例,运营商数据不仅可以用于解决其自身的生产运营、精确营销等问题,在商业选址、城市商圈规划、制定企业营销策略等很多领域都大有可为。

假设我们要为一家高级女装店铺进行选址,现有的选址方法只能够告诉你周边的人流量,却不知道你周围到到底有多少真正的潜在客户。当我们借助运营商数据,把客户画像、位置信息等数据能力输出到这个场景中,便能依据周边人群的特征、年龄、消费力等数据,作出精准决策。

但实际上现在的商业选址是很粗放的。问题在于数据的交易环节没被打通,数据能力无法输出,导致需要用数据的人没有数据,甚至也不知道数据能带来什么价值。只有实现数据拼接,才会带来数据价值的裂变式增长。

根据“世界是一个想象共同体”理论 ,数据开放共享是一个很大的趋势,是社会(企业)发展寻找新增长点的需要。智能城市、人工智能等产业的发展,都需要高质量数据的喂养。如果没有数据共享,高质量数据就难以规模化,人工智能等产业就很难落地应用。

数据共享的核心问题?

既然数据共享这么重要,甚至需求迫切。那为啥感觉还没有发展起来呢?从多方数据看,贵阳等大数据交易所并没有产生大规模业务,甚至不少数据共享公司在2017年中被政府调查。原因归纳如下:

  1. 法律问题,企业的数据到底是企业的还是企业的用户的?哪些数据可以共享?法律没有细致的规定,企业不敢冒着风险进行交易(敢做的上面讲到,突然被政府调查了)。
  2. 利益问题,企业的数据是其核心资产,就算法律上能够允许进行共享,除非有比其封闭数据产生可量化的价值,否则他们不一定会做。真正掌握很多数据的是大公司,像电信运营商、大银行和互联网巨头们,它们之间是很难合作。原因是容易在某个领域产生竞争。
  3. 标准问题,目前大部分数据都是专用性数据,企业收集自己的业务数据,并根据自己的业务场景进行清洗挖掘。如果进行数据共享,则需要满足数据需求方的需求(不同需求方的需求肯定是千奇百怪的),那清洗挖掘将与过去不一样。那标准是什么?还要考虑数据提供方的付出和收益成本差、数据需求方的付出和收益成本差。
  4. 技术问题,受法律和利益问题约束,需要在技术上做到 受众隐私保护 和 企业利益保护。受众隐私保护,指在符合法律规范下使用技术手段满足敏感信息不可被窃取。企业利益保护,指企业愿意共享数据,由于数据具有易复制性,会导致一次共享,数据价值急剧下降的问题,这也是企业不愿意开放数据的主要原因。

这4个问题,均存在不少问题。导致上游数据资源相对匮乏,进而影响到中间交易环节,数据交易中心形同虚设。

数据共享何去何从?

既然数据共享是趋势,也是新的增长点,核心问题也被定义出来了。做为一家企业,如何在数据共享应用爆发前,或者促进数据共享抢占先机?

达成共识
Adblockchain认为,达成共识是第一要点。达成共识的实际表现就是采取合作,现在有很多各自为战的公司,想要做数据共享业务,但又四处碰壁。坐下来形成组织,共同寻找办法推动法律问题。

单点击破
不要追求大而全的数据共享方案,从实际应用出发,单点击破。比如广告营销数据共享,可以按照兴趣爱好、行业属性等维度探讨数据共享方案;比如征信数据共享,可以按照银行、网络消费、社保等维度探讨数据共享方案。把不符合法律规范的数据严格去除掉,再分析能够通过数据共享产生什么价值。

产品打造
上面单点突破,相当于在确定应用场景,一旦应用场景确定可行,就需要产品人才,能够将在场景、需求、利益关系上做综合。推出产品方案,同时也就可以确定数据共享的标准。这要解决的是利益和标准问题

技术突破
技术是产品的基础,但受众隐私保护和企业利益保护不仅仅是产品问题,更是一个博弈过程。通过加密算法如,零知识证明、同态加密、安全多方计算来做到共享可行性;区块链进行记账证明、审查监督、利益分配;现有数据挖掘技术来进行有用数据清洗。探讨技术方案以支持产品应用的落地

这是一个复杂的过程,需要多种人才配合。举个例子,隐私问题要满足法律,那么就要做到受众知情,就需要设计C端产品供用户进行数据管理和授权(现在很多区块链应用就是这么干的,比如个人的identity)。满足了用户授权的数据,企业可以在共享系统中发布,这应该是个自动的过程。但是在实际过程中,可能又不能直接售卖单个用户的数据,因为数据需求方如果获得了某个用户的“母婴”人群标签,下次就不再购买了,甚至还会自己再把这条数据拿去售卖。对于数据提供方,肯定是不愿参与这种系统的。那就要在业务场景、产品设计、技术架构上寻找平衡点。当有许多场景都能够进行数据共享了,那时才会到制定跨场景的数据共享规范和应用时机。

大道理大家都懂,adblockchain在本文主要是梳理清楚数据共享的问题,并提出方向性建议,剩下的就是各个团队在实际中见招拆招了。期待行业能够尽快发展起来,这也将带来继O2O、互联网+后,另外一次应用甚至是创业创新的机会。看起来还要比O2O靠谱一些,比较数据共享带来的应该不是一家独大,而是基于人们个性化需求的众多小而美的产品。

)
Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade