“数据优势”与数据垄断问题小议
作者:万江 2022-12-30作者按:2022年12月19日,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布,提出了20条政策举措,又被称为“数据二十条”。这个文件是当下和未来一段时间内中国关于构建数据制度、发展数据产业的重要指导性文件,也指明了中国数据政策的走向。文件中多次提及反垄断法和竞争问题,显示反垄断与竞争政策也是数据政策中的重要组成部分。本文节选自作者《数字经济与反垄断法》一书中关于数据垄断的章节,做了删改,供读者诸君讨论批评。
企业的数据采集、转移和使用都可能使其建立“数据优势”
在数字经济时代,数据被普遍认为是构成企业市场力量的关键要素之一,在某些场景之下,接入和控制关键数据本身就会带来市场力量。如前所述,所有的数据最初都来源于用户或消费者,企业或数字平台是初始数据的采集者。谁拥有更多的用户,就拥有更广阔的数据采集渠道,相比于那些小企业或市场的新进入者,显然拥有更多流量的平台会更具有数据优势。当然,除了采集第一手数据外,经营者也可以通过其他渠道购买或获得第三方的数据。在数据的存储和转移方面,虽然普遍认为数字经济的多栖性有助于抵消数据集中带来的市场优势,但是数据的转移是有成本的,因此,数据的转移成本也会成为评估市场壁垒的重要指标。用户有时会发现他们很难将一个平台上的个人数据转移到另一个竞争性平台上去。那些具有支配地位的企业甚至会有意抬高转移成本,从而进一步强化其市场支配力。在数据的使用方面,网络效应会进一步强化数据带来的市场优势。例如,在线搜索引擎会采集和分析用户点击、链接广告的数据,这会直接提升自动展示关联性搜索结果和广告计算算法的能力,一方面数据的累积基于网络效应而提升产品品质,另一方面也会提高市场进入的壁垒。美国国会《数字市场调查报告》指出Facebook的数据支配力通过两种形式的“反馈循环”强化其竞争优势。第一,基于庞大的用户,Facebook相比于其竞争对手可以接入和采集更多的用户数据;第二,Facebook利用这些数据形成更有针对性的用户经验,从而吸引更多的用户并令用户在其平台上停留更长的时间。相反,小平台没有Facebook这样的数据能力。这样的数据优势长期持续,固化了Facebook的市场地位并令新的社交网络平台很难提供有竞争力的用户体验。Facebook的数据也可以令其成为守门人,排斥其他企业接入其用户的数据。
“数据优势”具有两面性
2007年以来的数字经济领域少数几项经过反垄断机构审查的并购案件中,绝大部分都涉及并购后的经营者是否会具有反竞争的“数据优势”问题。在Google/DoubleClick案中,欧盟委员会已经认识到,在线广告的广告主可以通过整合用户的地理位置、时间、兴趣、过往购物记录、搜索偏好等信息精准地锚定受众。委员会承认合并后的实体将整合Google和DoubleClick两个公司的数据采集能力,提升其服务品质,“如此的整合,利用用户的IP地址、cookie ID和链接次数等准确地匹配两个数据库的记录,将个人用户的搜索历史和网上冲浪轨迹结合起来,比如,合并后的实体可能知道同一个用户既搜索了A、B、C,又访问了网页W、Y、Z,这将提升广告触达目标用户的精确度。”[1]但是,委员会同时认为,用户仍然可以选择拒绝定向广告,这会抵消并购后主体的竞争优势,而且其竞争对手也可以通过从第三方购买数据或精准投放服务来弥补数据接入上的劣势,也就是说委员会认为其竞争对手可以通过其他渠道获得相似的数据和能力。美国FTC实际上也持相似的观点,在本案的最终审查声明中,提及有关竞争对手提出的数据整合问题担忧,FTC认为无论是Google还是DoubleClick的数据都不构成在线广告市场的必需要素,Google的竞争对手也拥有Google所无法获得的有价值的数据。由此可见,反垄断机构对于数据可能带来市场力量的担忧是存在的,但由于数据的多栖性和非对手性,认为数据的集中未必会带来实质性的竞争损害。如此逻辑,在2014年的Facebook/WhatsApp案中被再次重申。2016年,欧盟委员会同样无条件批准了Microsoft/Yahoo案。核心理由是两个公司的搜索引擎都落后于Google,因此,更大规模的数据采集会帮助并购后的实体提升其提供更优质服务的能力,有助于给Google带来更大的竞争压力。2018年Apple/Shazam案中,尽管欧盟委员会担心Apple会通过并购获得Shazam所拥有的包括Apple Music竞争对手的用户等商业敏感信息,并借此抢夺竞争对手的用户,损害数字音乐流媒体市场的竞争。然而评估的结果是这项并购带给Apple的数据增量并不足以对其竞争对手(Apple Music是仅次于Spotify的欧洲第二大数字音乐流媒体服务提供商)造成排挤,不会损害相关市场的竞争。 可见,在数字企业的并购案中,数据集中可能带来的“数据优势”的确是反垄断机构考量的主要问题之一,但至少在2019年之前,全球的反垄断机构没有对该领域的合并提出过异议,在数据方面的主要考虑有两点,其一是数据不具有稀缺性,也即是说数据易于被复制或多渠道采集,其二是数据集中确实可以提升企业的产品和服务能力,但是企业占有和采集的数据规模未必足以严重损害竞争,甚至可能促进市场的竞争。然而,2020年12 月,欧盟委员会附条件批准Google/Fitbit合并案,可能会是一个转折点,在这个案件中监管机构采取了更为严厉的态度。欧盟委员会虽然承认两个公司不处于同一个相关市场,但二者数据的融合会引发横向协同效果的担忧。在审查中,欧盟委员会提出了三个方面的担心,其中两个与数据有关,一是收购完成后Google将获得Fitbit用户的健康和健身数据,这将提升Google在在线个性化广告上的能力,从而进一步强化Google在在线广告市场上的支配力;二是Google可能限制Fitbit 原本的API数据接口,进而损害处于初创期的欧洲数字健康市场的竞争和发展。为此Google做出了相应的承诺,即不会将Fitbit的用户健康数据用于Google 广告业务,并且会维持Fitbit用户数据库的技术隔离,确保不会与Google那些用于广告业务的数据混同,同时会给予欧洲的用户同意或拒绝Google将其健康和健身数据用于Google其他业务的选择权;Google也会继续允许其他应用软件通过Fitbit的API接入用户数据。
数据优势不等同于市场支配力
数据或数据的累积究竟会不会给企业带来市场优势甚至构成市场支配力的核心要素?这个问题要结合数据的特性进行讨论。首先,数据是“非对手的”或“多栖性的”,因此,个别经营者很难排斥其他经营者接入相同的数据,也就是说,相同的数据在市场上可以为不同的经营者采集获得,如此,就无法断然认定占有或积累大量数据就必然给经营者带来不可替代的市场优势,因为其他的经营者也占有或正在积累(即现实替代性)或有渠道占有或积累相同的数据(即潜在替代性)。欧盟委员会在Telefonica UK/Vodafone UK/Everything Everywhere案中,就指出“消费者普遍会将个人数据给到很多市场上的经营者,这类数据通常都被视为一种商品”,由于这类商品的多源性,其价格很难定的很高(即稀缺性不足)。当然,数据的这种特性也不意味着市场上所有的竞争者都可以获得相同的数据。经营者采集用户的数据通常都源于用户使用它的产品或服务,而数字经济的网络效应会令既存的大型多边平台企业在聚集用户进而聚集用户数据上有明显优势。市场的新进入者在数据积累上首先面临的是用户拓展和积累的问题,然而由于网络效应和规模效应,导致数据积累的正向反馈循环效应拉大了企业在数据采集放方面的差距。这会导致相比于市场上既存的大型企业,新进入者采集和积累数据的“劣势鸿沟”仍然是存在的。另外,虽然数据中间商和数据交易市场的发展都有助于提升数据的可获得性,但是中间商供应的数据质量以及必要的支撑服务往往很难与大型平台相比,尤其是一些高价值的数据往往很难真正进入数据市场自由流动。 其次,在数字经济时代,几乎所有的行业都在进行数字化转型,企业可采集数据的规模、数量和范围大大扩展,“数据无所不在”。数据的价值源于数据透传的信息和认知,而不是数据本身。因此,不同的数据基于不同的机制可以提取出相同的事实认知。例如,通过搜索引擎获取的特定用户的搜索内容可以了解到他的音乐偏好,而社交网络也可以通过他在平台上分享的信息而形成的个人画像推断出他的音乐偏好,二者殊途同归。同样,Facebook的社交网络、Google的搜索引擎和Amazon的电商购物的数据分析都可以用于精准广告业务,可见不同的数据之间也是有可替代性的。在2019年之前,正是基于这样的逻辑,类似Google/DoubleClick的合并案在数据融合方面并没有引起监管机构的真正担忧。然而,不同数据之间的可替代性依然是个复杂的问题。例如,社交网络收集的用户数据的丰富度要远高于搜索引擎,而搜索引擎采集的数据在确认消费者搜索具体产品或服务方面又更有优势。通过台式机或笔记本电脑采集的用户购物数据也很难完全替代通过移动端采集的用户购物数据,因为后者还有用户购物的实时位置数据。在TomTom/Tele Atlas案中,欧盟委员会就认为Tele Atlas作为一个地图数据库的供应商积累的数据并不具有导航的用处,和TomTom作为便携式导航设备供应商拥有的导航数据之间不具有替代性,后者包含更多的细节信息如道路类型、交通信息、转弯限制信息等。如此来说,对于不同数据之间基于需求替代出发分析可替代性问题还需要个案分析。 再次,普遍认为,大型平台企业的数据采集规模和范围具有明显优势,并且由于网络效应引起的数据积累的正反馈循环,这种数据优势会转化为不可逆的竞争优势,从而令市场进入壁垒不断筑高,形成垄断。从竞争约束上来看,所有的大型数字经济企业都有不断扩大其数据采集规模和范围的冲动。第一,数据的重要功能是推测和预判,而这些都是基于概率准确性的,通过数据观察到的行为和结果越多,推测准确的概率就越高,结果就更可靠。为了提升推测的质量,数据的数量积累是必须的;第二,大量的数据尤其是用于推测的数据是有时效的,其价值随着时间推移会迅速下降。比如,用于分析广告市场趋势的历史数据,相对于反映广告投放的实时投标数据的价值更小。在搜索方面也是如此,据Google的报告,每天新的搜索占据了15%,意味着搜索算法需要持续的、新的数据喂养。因此,为了数据能够非常快速地更新,企业也不得不在很短的时间采集到一定体量的数据,提升数据约束。持续地、成规模地数据采集能力会给企业带来持续的竞争力;第三,并不是所有的数据都用于推测和预判,在更加古典的市场上,数据库通常都是汇编联系信息和使用信息,如个人的性别、姓名、地址、生日、工作等信息,这些数据也不会因时间推移而失去价值;第四,相比于数据的数量累计,数据的多样性和丰富度甚至能带来更大的竞争优势,通过不同的产品采集汇集用户行为和品味的多面信息也是必要的。当今的数字经济时代已经发展到数字生态化阶段,单个大型数字企业提供的产品和服务几乎可以覆盖用户的全面需求,从而也可以更为立体地采集用户数据,甚至形成用户的个人画像,基于这样的数据库可以更全面更有深度的提升产品和服务的质量,开发出更具有经济价值的新产品新服务。 值得注意的是,有学者指出那些用于做推测分析的数据的边际价值在超过一定数量后会迅速下降,企业拥有的数据体量和企业的竞争优势之间并不是持续正向关联的。[2]如前所述,准确地推测和预判需要以庞大的数据积累为前提,但是随着数据库规模的扩大,统计上的取样误差也会伴随出现,取样规模越大误差越大,预测的准确率反而下降。另外,数字经济领域存在“长尾效应”,数据库扩张到一定的规模,就足以覆盖绝大多数场景,增加的数据大概率在不断重复相同的场景,这会导致单个信息的边际价值迅速下降。在Microsoft/Yahoo案中,虽然Google的搜索数据库相比Yahoo有明显规模上的优势,但是欧盟委员会指出,“Microsoft提交的一份用于比较Google和Yahoo的搜索结果相关性算法研究报告表明,Microsoft和Yahoo在最常见的搜索查询上,整体的结果相关性差别非常小”。 总之,数据的使用并非新的现象,在传统行业和领域中早已有数据的分析和使用问题,如今,技术的进步和数字经济无论是从属性上(如智能手机反馈的实时定位数据)、来源上(如追踪不同设备上用户的网页浏览数据)、应用上(如机器决策和机器学习)还是体量上大大扩展了数据的范畴。反垄断机构已经充分认识到数据在数字和非数字经济中的关键作用。我们要承认,数据产业仍处于婴儿期,可能今天我们认为具有替代性的不同数据在未来就没有替代性了,反之亦然,例如在线数据和离线数据,社交数据和搜索数据。因此,数字经济在发展,关于数字经济的反垄断法也在与时俱进。过去的十余年间,涉及数据的竞争分析实践主要都在经营者集中审查的执法活动中展开,近年来关于数据的其他反垄断执法活动也越来越多,有关数据的反垄断分析框架仍在发展建立过程中。
注释 [1] EU Commission, COMP/M. 4731 - Goggle/DoubleClick, p.96. [2] Autorité de la Concurrence & Bundeskartellamt, Competition Law and Data, 2016, p.47-48.