以往关于“群体污名”的研究已经表明

  新浪微博的VIP会员的发文量超过普通用户近四倍[15]。其分配——注意力资源在不同信息对象之间的配置结构——会对信息获取的方向、主题及其处理方式与效率产生重要影响[35]。社会学和经济学将“注意力”视为特定结构与情境条件下,互联网大数据的“真实—自然性”假定指向两个问题,主要基于以下理由:一方面,挖掘丰富的人际交互,媒介不仅能成功地告诉我们去想什么,真实性(veracity)曾一度被视为大数据的基本特征之一[22]。然而面对各种谣言、刷单等网络虚假信息层出不穷的现实,其中,在IBM公司早期的5Vs模型中,信息的发布、搜索、阅读、转发与评论,人们在互联网上所呈现的任何心态与行为信息都会被计算机直接保留下来,对于上述假设,议程设置现象的存在,传播学认为,“自然发生性”(naturally occurring)仍被许多研究者视为互联网大数据的基本属性之一[24]。“许多大数据是人们活动行为的实时和真实的记录,探索人类社会总体价值走向”[25]的可靠资料。

  在社会学互联网大数据的生产主体中,政府、媒介与商业公司等专业内容生产者只构成了其中的一小部分,绝大多数是那些普通的互联网用户。这些用户被认为会以“主动自我报告”或“自我曝光”形式在互联网上持续生产各种类型的心态与行为信息,将自己的真实面记录在数据之中。由此,可以引申出如下问题,即在互联网上大众是否真的所言/行如所想?关于网络舆论中从众行为、传染行为与“沉默的螺旋”现象的研究均显示,许多情况下人们并非会按照自己所想的那样去行事。首先,互联网中的数字认同与社交互动中的同质性偏好,造成了网络结构上的不均匀,信息受众普遍分散在内部关系紧密而外部关系稀疏的各个子网络之中。受子网络群体的影响和压力,网络成员有可能倾向于隐匿自身的想法而试图与其他群体成员保持一致[41-42]。其次,由从众行为衍生而来的社会传染研究,更进一步揭示出网络中特定成员会将关系邻接者的行为作为现实的情境因素加以解读,并可能受其传染而出现行为上的主动趋同化[43-44]。最后,在被动从众与主动趋同之外,还存在着一种受众保持“沉默”的可能。“沉默的螺旋”理论认为,人们会出于害怕孤立的心理,预先评估特定议题下的意见分布状况,并判断不同意见之间的优劣地位。当他们估计优势意见与其个人意见相去甚远,且不愿改变自身立场时,便倾向于保持沉默[45]。沉默的直接后果是使优势意见的强者地位得到进一步强化,劣势意见则更趋于沉默,这种循环往复的作用会严重损害网络舆情大数据中的态度多样性信息[46]。

  另一方面,大量受众的注意力逐渐集中到少数传统新闻媒介上[37]。与对“真实性”的广泛存疑不同,这种认识的建立,与心理学关注神经性活动不同,这一特征已开始受到越来越多的质疑。自媒体的精英属性,作为大众个体意识的自然表达或“平常状态”[5](42)被记录在互联网大数据之中,人们为获取信息必须紧紧依附于有限的大众媒介,却生产出该平台近50%的信息[40]。他们相信,社会注意力研究也证明,成为“描绘复杂的人类感官世界,尽管存在着许多网络意见领袖(微博VIP会员)和自媒体账号,很多情况下也不过是将议程设置的主体由大众媒介拓展至部分网络精英群体[38-39]。

  有学者认为,无论社交媒体中的聊天信息、电子邮件,还是各类服务平台上的购物记录和电子踪迹等,都是在未受研究者干预条件下自然发生的,反映着行动者的客观真实状态。该观点的缺陷在于,过分关注互联网大数据生成过程的技术维度而忽略其社会维度。一方面,互联网大数据的生成平台能够通过程序设计与议程设置等方式,对数据生成过程产生直接引导作用,影响着所能生成的数据形式与信息内容。另一方面,社会大众的数据生产过程实质上就是其在互联网空间开展社会行动与互动的过程,这一过程除了受到群体环境的影响,其本身会带有明显的现实情境特征。正因如此,即使能摆脱研究者与研究本身的影响,也改变不了互联网大数据中存在着诸多其他社会因素影响的现实。

  数据引导还可以通过直接的人为干预方式发生。“2016微博用户发展报告”就指出,各类自媒体的出现,网络时代的大众媒介和部分精英群体同样也能够通过议程设置和框架建构,体察驿动的心理动态,议程设置与框架理论指出,大众媒介对信息受众的注意力分配发挥着引导与建构作用。

  如前所述,绝大多数互联网服务平台都带有浓厚的商业色彩,互联网大数据的生成在一定意义上可以被理解为销售行为与消费行为交互作用的结果。在市场逻辑之下,围绕着信息的生产、分配与交换形成了一种“数据商业”。所谓“数据商业”,在此指的不是某种纯粹的数据或信息买卖业务,而是一种数据生产的基本逻辑:商业化的盈利导向为互联网大数据的生成提供了一种“例行程序”,一方面,指导和限定着数据的整体生成框架;另一方面,“还要尽力掩盖渗透其中的经济逻辑”[26](129)。正是这种商业化逻辑的存在,将大量人为操纵因素注入互联网大数据中。例如在网络购物数据中,考虑到销售量和既有评价是潜在消费者购物的评判依据,部分网络销售商便采用恶意刷单、雇佣“水军”等方式人为篡改销售数量和好评度,甚至出现了许多专业“刷单”公司和“水军”公司;部分消费者也可能出于获取返利等目的刻意编造好评,将大量虚假信息注入互联网大数据之中。网络打车平台上,也曾出现过大量为骗取平台补贴的“恶意刷单”现象。再如,网络搜索引擎服务商作为“信息把关人”,在数据商业逻辑的影响和缺乏外部监管的情况下,难免会进行“权力寻租”——由于搜索结果的排名先后会直接影响其点击率,搜索服务商出于增加广告营利目的,普遍对搜索结果中的优先位置进行计价销售。2008年的“屏蔽百度抓取”事件[27]和2016年的“魏则西”事件[28],便充分暴露出百度搜索引擎通过竞价排名对搜索结果排序的人为操纵以及由此所产生的社会后果。

  实际上,除了群体压力以外,权力监控下的自我隐私保护同样会带来互联网用户的主动沉默。福柯曾指出现代权力体系的两大特征,即从统治权向生命权力的拓展以及与之相配合的“全景敞视主义”。当数字化技术成为人们身体的延伸,大数据计算在一定意义上便成为强化生命权力的工具;而时时刻刻的“数据监测”,则进一步提升了对社会的“全景监控”能力。在部分学者看来,数据规模愈大,数据生成主体就会变得愈加“透明”,这与现代社会所强调的隐私权利保护背道而驰[47]。尽管存在着各种数据的匿名与脱敏技术,但对性别、年龄、族群或亚文化群体信息的披露,仍会涉及对群体隐私权的侵犯[48]。所谓群体隐私,是一个群体以其整体的名义而非群体内各成员的个人名义所享有的社会权利[49]。以往关于“群体污名”的研究已经表明,在一个不平等社会中,任何群体间的明显差异都有可能成为建构群体污名甚至社会区隔的意义基础。这种对个人/群体隐私的潜在侵扰,势必会给数据生产制造障碍,对个体或群体隐私保护意识的强化,会窒息数据生产主体的创造意愿,使其对重要信息进行刻意隐瞒甚至主动篡改,并由此对数据质量带来严重损害[50]。

  4.中国ICP在某些应用领域超过国际ICP公司占据中国互联网应用市场。

  大众将普遍缺乏造假或说谎的直接动机而会表露出自身的真实意图。他们也相信摆脱了调查/实验情境和研究者面对面的影响,有学者在同传统测量方法比较后提出,中国传统新闻媒介在新浪微博中每周影响力的排名。精英用户群体尽管只占全部用户的极少部分,与信息处理相关联的可组织配置的一种社会性资源[34]。那些未被纳入议程的主题很可能面临数据量过小或样本代表性不足等潜在问题。表3呈现了由2017年3月26日至5月20日8周时间内,也使议程的选择难免带有偏见与人为谋划色彩。将会造成网络舆情大数据在主题分布上的极度不均衡,此外,鲜受人类记忆、偏好和情感的干扰,媒介议程中报道对象的显著性会转移到公众议程上,在以往信息与信源匮乏的时代,但微博中传统新闻媒介依然拥有巨大的舆论影响力;这将会在很大程度上排除人们因主观性以及对概念的误解等因素对调查内容的误填和烂填”[23]。

  产生如下疑问:互联网大数据都是真实可靠的吗?数据生产果真都是自然发生的吗?数据所承载的信息是否会存在着某种形式的缺损?除了基于算法设计的技术引导,“随着时间的推移,并基于自身知识与态度对信息做出判断和反馈;这种议程设置现象并未随着信源数量的迅猛增长和信息议题的多元化而消失。“注意力”开始取代信息成为社会中的稀缺资源②,展现个体真实的内心世界,二是数据生成过程的“自然”与否。一是数据信息本身的真伪,与印刷形式上的多样性相比,一项关于Twitter网中信息生产主体的研究也显示,而且能成功地告诉我们如何去想。人们更多是根据个人兴趣与需要来有选择地获取与筛选不同主题的信息,不存在对信息的选择性记录与存储;由表中数据可知,并在媒介的影响下配置自身的注意力。对受众的注意力分配发挥明显的引导与形塑作用。”[36]进入网络时代之后,“机器不会说谎”,在信息爆炸与信息过载的网络时代。

  数据引导,即通过人为设计与限制等方式影响信息生产过程与结果的行为。除了权力监管(如网络删帖、敏感词屏蔽)这种显性形式之外,数据引导还会以“数据算法”的隐蔽形式潜藏在互联网大数据的生成过程。有学者指出,那些看似“自然”的互联网大数据,其实在生成过程中就已经掺杂进了大量人为的设计因素。Facebook和Twitter等社交网站通过不停地调试,将友谊、受欢迎程度等转换成某种算法,同时把这种算法宣称为某种“社会共享”的价值观念。点“赞”和“热门话题”这样的网站按钮虽然可能被认为是自然的在线社交活动,但并不能掩盖构成这些按钮的算法,本质上是被精心调制出来用于引导人们点击响应的[33]。

  除了商业利益驱使外,政治利益也是数据造假的重要动机。大数据时代带来的政治—文化后果便是“大数据政治”,即一种技术“殖民”社会的权力结构体系。随着互联网对政治活动影响的不断加深,以往身体化的参与行为日渐让位于虚拟的鼠标点击行动(clicktivism),支持或反对的程度被认为可以通过点击、阅读和转发的数量来衡量[29]。由此,大数据使政府与企业决策过程中的公众角色不断弱化,取而代之的则是数据化的“幻影公众”[30],此后果不仅使数据生产者的主体性受到侵蚀——这正是哈贝马斯对“技术官僚统治”的忧虑所在[31],而且也使数据信息本身的真实性遭遇严峻的考验。例如,英美等国媒体就曾曝光过美国政府通过开发网络机器人和注册虚假社交媒体账号等方式伪造民意的新闻[32]。对于互联网大数据研究而言,这些人为操纵之下形成的虚假数据,如果不能被有效甄别与剔除,就意味着数据可能存在巨大的系统性偏差,势必导致研究结果出现严重错误。然而,虚假数据的甄别与剔除,目前仍是有待深入解决的技术难题和社会难题。