个人信息保护政策的网络评价量化计算模型实证研究

周庆山 赵菲菲 董立峰

摘 要:[目的/意义]通过对个人信息保护政策的网络评价文本进行分析挖掘,可为政府相关部门了解个人信息保护政策具体政策评价提供重要参考维度。[方法/过程]本文结合半结构访谈、网络媒体传播及公众社交平台评论数据,采用定性和定量研究相结合的方法,从政策完善度、政策效果、政策宣传、政府信任等多个维度入手,构建个人信息保护政策的网民评价计算框架。[结果/结论]在计算框架中,本文创新性地提出“议程设置匹配度”“政策各维度正负面占比”等核心指标,以及网络主题抽取模型,最终对6项个人信息保护政策进行了量化实证计算,基于对实验结果的分析,为提高个人信息保护政策的公众认可度提出参考建议。

关键词:网络评价数据;公共政策评价;计算框架;个人信息保护政策

DOI:10.3969/j.issn.1008-0821.2022.06.001

〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2022)06-0003-14

Abstract:[Purpose/Significance]By analyzing and mining the network evaluation text of personal information protection policy,it can provide an important reference dimension for relevant government departments to understand the specific policy evaluation of personal information protection policy.[Method/Process]Based on the data of semi-structured interviews,online media communication and users comments on social platforms,this paper used a combination of qualitative and quantitative research method,to build a netizen evaluation and calculation framework of personal information protection policies from multiple dimensions such as policy perfection,policy effect,policy publicity,government trust in the calculation framework.[Result/Conclusion]This paper innovatively puts forward core indicators as“matching degree of agenda setting”,“proportion of positive and negative aspects of policy dimensions”and network topic extraction model,and finally realizes the  quantitative empirical calculation of six personal information protection policy evaluations.Based on the analysis of the experimental results,some suggestions are put forward to improve the public acceptance of personal information protection policy.

Key words:network comment data;public policy evaluation;calculation framework;personal information protection policy

在数据驱动的决策范式下,基于网络民意数据的公共政策过程研究逐渐成为热点领域。按照Leslie Alexander Pal的观点,公共政策是指公共权威组织所选择的行动纲领或做出决定,以解决某一既定的或者一系列相关的问题[1]。在公共政策过程的发现问题、制定政策、实施政策、评估政策等各个阶段,政府都需要参考民众的意见[2]。公共政策的制定和完善应建立在广泛的网民评价基础上,唯有公民规范、理性、均衡地参与公共政策制定,才能确保公共政策输出的合法性和科学性。据中国互联网络信息中心(CNNIC)统计显示,截至2021年6月,中国网民规模达10.11亿。互联网普及率为71.6%,较2020年12月提升1.2个百分点[3]。随着以社交媒体为代表的互联网媒体在政府部门和公众中广泛普及,政府部门与公众之间可以实现跨越时空限制的信息互动。互联网以其扁平化、交互式、快捷性的优势,不仅可以使政府部门在收集有关社会问题信息的深度、广度以及时效性方面得到空前提高,而且为公众参与公共政策过程提供了技术保障和支持。利用大数据、人工智能等技术对公共政策的网络媒体及网民评论数据进行建模计算,将成为新时期支撑政府部门政策过程的重要手段。近年来,我国政府已有意识地利用网民评价数据,为公共政策提供决策参考,而且在公共决策时广泛利用社会媒体、网络调查和抽样调查,实时、定期收集公民对特定政策的意见建议。

随着大数据和人工智能地广泛应用,个人信息的收集日益密集和隐蔽,其安全問题引发广泛关注,针对个人信息保护问题,我国前期出台了多项法律、法规及标准规范政策[4],但仍然存在政策法规体系不够系统、完善,出现多头监管、执法缺乏依据、惩罚力度不足、行业自律制度难以发挥作用等系列问题[5],为此,全国人大常务委员会于2021年8月20日通过《个人信息保护法》,并于2021年11月1日起施行。通过对个人信息保护政策的网络评价文本进行分析挖掘,可为政府相关部门了解个人信息保护政策相关网民评价,并确保个人信息保护政策的顺利推行提供重要参考维度。然而,现阶段政府在政策的网络民众意见分析利用方面,多将其等同于传统网络舆情分析;6816A859-14DE-4471-AE49-F887F905D427

在分析方法方面,政策意见提取和网民政策情感倾向分析多采用通用文本聚类和情感倾向分析技术;在指标选择方面,多借鉴舆情分析中曝光量、网民的情感倾向等舆情类指标。公共政策尤其是广受大众关注热议的个人信息保护政策网民评价计算,不同于普通舆情分析计算,其具有较强政策属性特征,利用现存的舆情分析技术、分析指标等不能满足公共政策网络民意分析现实需求。基于此,本文构建基于个人信息保护政策的网络评价文本计算框架,通过对公共政策的多维、量化计算,从政策完备性、政策扩散、政策效果、政府信任等多个维度对个人信息保护政策进行客观量化的评价分析。

1 相关研究综述

网络民意是指以互联网技术和信息化手段为基础,公民通过网络平台表达的、相对集中的意见和言论的汇总[6]。随着Web2.0技术的发展,公众通过网络平台参与公共政策的监督和对政策的诉求表达愈发普遍,政策评估中的公众参与日益成熟。现有爬虫、自然语言处理以及机器学习等技术,为公共决策研究提供了新的思路与方法。Song M等[15]指出,社交媒体文本分析使政府能够及时跟踪事件的发生、消亡以及用户对该事件的反应,确保政府可以进行更加有效地分析,为政府管理提供新的研究视角。

面向公共政策学者们基于网络媒体的网民评价指标构建及网络民意分析挖掘方法进行了丰富的研究。其中,在基于网络媒体的网民评价指标构建方面,邱尔丽等[19]基于网络数据,将政策对公众的吸引程度、公众对政策的立场倾向以及政策推进中舆论曝光或者投诉问题的情况进行分析,构建了公共政策评价的网络民意指标体系。何志武等[14,21]针对政策议程的不同模式,围绕网络网民评价的表达路径与收集机制展开研究,并从主体性、科学性和倾向性3个维度开展网民评价分析,同时指出网民评价分析应该是一个不断变化的动态过程。邓莎莎等[20]构建了由数据准备和网络民意建模两部分构成的面向公共决策的网络民意建模系统及评价指标体系框架,并以“健全医疗保健制度”为应用案例,验证了系统框架的良好效果;在网络民意分析挖掘方法方面,学者们基于网络数据及政府公开数据,利用大数据技术及系列分析挖掘方法,对公共决策中的网络民意分析挖掘进行了较多探索[7-13]。如Li Y等[16]针对互联网事件抽取问题提出了基于分类空间模型和特征选择策略的网络舆情事件抽取框架,并在测试数据集合上得到了较好的验证。Zhou P等[17]提出基于关键词抽取的网络民意内容聚合框架,通过对已抽取的网络民意进行聚合以丰富抽取结果的语义信息。Lu Z W[18]针对微博短文本提出了基于TF-IDF的短文本观点挖掘系统,但该系统在长文本数据处理上的适用性还需进一步加强。胡欣杰等[23]提出了基于聚类分析的网络民意倾向性分析的距离模型和相关系数模型,提出了基于时间片的k中心点法聚类分析算法,经试验验证模型能有效地提高提取的查全率,较大幅度提高了时间效率。

通过对国内外相关研究进行调研发现,现有基于互联网舆情数据进行政策评价的相关研究,在数据源上主要集中于微博文本数据或搜索引擎数据,网络数据来源较为单一。在指标选择方面,面向公共政策,尤其是个人信息保护政策属性的系统性指标体系有待深入研究。此外,通过对网络民意数据进行全收集、精确统计、深度挖掘和量化分析的可操作性方法相对缺乏。已有分析挖掘方法存在挖掘结果有效性不高的问题,难以满足政策决策机构对个人信息保护政策精确量化评价的需求。因此,急需构建基于个人信息保护政策的网民评价计算分析框架,为科学决策提供重要分析维度。

本文结合半结构访谈、网络媒体传播及公众社交平台评论数据,采用定性和定量研究相结合的方法,从政策完善度、政策效果、政策宣传、政府信任等多个维度入手,构建个人信息保护政策网民评价指标体系,并结合专家智慧,利用层次分析法,对相关评价指标进行筛选和权重计算,构建基于网络评价文本的个人信息保护政策评价计算框架,并进行了实证检验。此外,本文还创新性地提出衡量民众评论主题与主流媒体报道主题匹配度的核心指标“议程设置匹配度”,在给出形式化的同时进行了语义计算,提出了基于“主题—事件—互联网信息—句子—词语”的层次关系和多视角语义距离度量的网络主题抽取模型,完成核心指标中文本主题提取和网络主题相似度的计算,提升了网络议题抽取的有效性。

2 基于个人信息保护政策的网民评价文本计算框架构建

2.1 计算框架构建过程描述

基于网络媒体数据的个人信息保护政策网民评价计算框架主要包括评价指标提取、核心指标计算、指标权重计算和框架验证4个阶段。其中,在评价指标提取阶段,为保证从公众的视角入手,提取的公共政策评价指标具有科学、合理且具备特定公共政策的独特性,本文采用半结构化访谈针对公众对特定公共政策的评价维度进行收集,并基于扎根理论对访谈记录进行文本编码,抽象出概念和范畴,并最终构建特定公共政策评价指标体系。在核心指标计算阶段,基于已经构建的评价指标体系,对“议程相似度”“政策各维度正负面占比”等核心指标进行形式化定义,并利用情感分析、主题识别等文本挖掘技术实现指标计算;在指标筛选和权重计算阶段,利用层次分析法,通过邀请领域专家对指标进行两两比较打分,并将数据进行归一化处理,实现指标的筛选和权重计算,最终得出特定政策评价计算模型;在实证阶段,本文选取6项个人信息保护政策,通过收集和整理政策媒体报道数据和网民评论数据,利用计算模型对相关政策进行量化计算,并对试验结果进行对比分析,提出个人信息保护政策建议,计算框架如图1所示。

2.2 基于半结构访谈的个人信息保护政策评价指标体系构建

为构建个人信息保护政策评价指标体系,本文随机选取60人作为访谈对象进行访谈。同时,为了使被抽中的样本所产生的研究结果能够最大程度地覆盖研究现象中各种不同的情况,本文结合“最大差异抽样”的原则方法,尽量做到分别按照不同教育情况、地域分布、性別比例、年龄分布抽取一定数量的样本进行深度访谈调研。其中,60名被访者地域分布在12个省市,年龄主要集中在24~60岁之间;性别比例男性28人,女性32人;受教育情况博士10人,硕士30人,本科13人,高中2人,初中2人,小学2人,未接受教育1人;职业分布多样。本文按照一个粗线条式的访谈提纲对受访者进行非正式访谈,如表1所示。了解受访者对该主题的感受和看法,获取细致、生动的文本资料,并利用扎根理论抽象出概念、范畴。在访谈结束后,将访谈录音资料转化成文字信息,并随机抽取40份(约2/3)的访谈记录进行文本编码,剩余20份访谈记录作为理论饱和度检验。6816A859-14DE-4471-AE49-F887F905D427

本文利用扎根理论研究方法对访谈内容进行编码,编码分为开放式编码、主轴式编码和选择性编码,在编码完成后进行理论饱和度验证。开放式编码是对原始访谈资料所记录的可用于编码的句子或者片段进行概念化和范畴化,是将原始资料分解、比较后再以新方式重新组合的过程[20]。本文采用逐字逐句编码的方式将原始资料进行概念化,再利用聚焦编码的方式将相同或者相似的概念组合进行范畴化。为避免编码的主观性,本文采用两位编码人员进行预编码,保证对编码方式和相关概念的一致性,提取出初始概念用an表示,共得到49条初始概念。在进行完初始概念提取后,通过主轴式编码来实现编码概念层面的内在联系,并进行删除、归类和融合,进行相似初始概念的合并和范畴化,共得到15个范畴,范畴用An表示。初始概念提取和范畴化示例如表2所示。

将15个开放式编码进行归类、合并,最终得到5个主范畴。通过对留作理论饱和度检验的20份访谈内容进行处理和分析后,未发现新的概念和范畴,说明上述扎根理论的分析是饱和的。提取的主范畴如表3所示。

同時,结合访谈编码提取内容、网络媒体传播及社交平台网民评论数据指标维度的总体情况,本文提出了基于互联网数据的个人信息保护政策评价指标体系,如表4所示。

2.3 核心评价指标

2.3.1 议程设置匹配度

本文的核心指标“议程设置匹配度”是指网络主流媒体报道主题与社交平台上网民关注焦点重合程度。其形式化定义如式(1):

y=card(A∩B)card(A)*100%(1)

y:议程设置匹配度;A={x|x∈主流媒体报道主题};B={y|y∈网络平台网民评论主题}。

其计算流程如图2所示,本文分别将主流媒体报道和网民评论数据进行主题提取,形成主流媒体报道主题集合A和评论主题集合B,通过将集合A和B中的主题进行两两比较计算相似度,如相似度在特定设置的阈值之上(本文设置为85%),则进行计数,通过式(1)计算议程设置匹配度。

议程设置匹配度计算关键是对主流媒体报道和社交平台网民评论中的主题进行提取。由于这两个平台中的数据具有异构、量大和半结构化等问题,为主题的有效抽取带来了挑战。此外,现行研究成果在网络议程抽取方面存在着抽取结果语义信息不足、抽取结果有效性较差、抽取模型可扩展性较差等问题,难以满足公共决策机构对于有效网络议题抽取的需求。因此,本文提出了基于“主题—事件—互联网信息—句子—词语”的层次关系和多视角语义距离度量的主题抽取模型。模型首先识别互联网信息集合中所包含的主题信息,然后抽取每个主题下所包含的主题词信息。本文定义了可以从不同维度度量互联网信息之间语义相似度的语义距离指标,语义距离可以实现从关键实体集合相似度、实体语义关系相似度、文本相似度等多个维度更加全面地衡量不同互联网信息之间的语义相似度,进而实现网络主题的精确抽取,语义距离度量结构图如图3所示。

在网络主题检测中,首先利用隐形狄利克雷分布(Latent Dirichlet Allocation,LDA)模型对互联网信息集合中的潜在主题信息进行提取,然后基于计算得到的主题分布向量使用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法对全部互联网信息进行聚类处理,聚类的结果就是互联网信息数据集合中所涉及的全部主题以及各个主题所包含的互联网信息。

抽取得到的网络主题会存在多个抽取结果同指一个主题现象,假设两条互联网信息具备相同的时间、地点、人物等要素,且各实体之间的语义角色信息相同,则认为上述两条互联网信息描述的是同一主题,即上述两则互联网信息隶属于同一主题。本文利用哈工大中文语言技术平台LTP中的命名实体识别库[27],实现文本命名实体识别的功能。基于上述假设,本文定义了一种描述互联网信息之间语义相似度的距离度量。该距离度量综合考虑了两互联网信息之间的实体相似度、实体语义角色相似度、文本相似度,以更加全面地度量两则互联网信息之间的语义相似度。i、j两则互联网信息之间的语义距离度量定义如式(2):

distij=1simentityij+simsemanticij+simwordij(2)

其中,simentityij表示两则互联网信息之间的关键实体集合相似度,simsemanticij表示两则互联网信息之间各关键实体的语义角色相似度,simwordij表示两则互联网信息之间的文本相似度。

1)互联网信息实体集合相似度计算

两则信息之间所包含的时间、地点、人物等关键实体相似度较高则说明两则信息之间描述同一主题的概率越大。因此,本方案使用Jaccard相似度方法对不同互联网信息之间的实体相似度进行度量,计算定义如式(3):

simentityij=Enti∩EntjEnti∪Entj(3)

其中,Enti∩Entj表示两则信息之间公共实体的个数,Enti∪Entj表示两则信息出现的全部实体的个数。实体集合相似度取值介于0与1之间,数值越大表示两者在时间关键实体上的相似度越高,越有可能描述的是同一网络主题。

2)互联网信息实体语义相似度计算

Sun W等[26]提出,语义角色标注是浅层语义分析的一种,在一个句子中,谓词是对主语的陈述或说明,指出“做什么”“是什么”或“怎么样”,代表了一个事件的核心,与谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色,主要有:施事者、受事者、客体、经验者、受益者、工具、处所、目标和来源等。例如“小明昨天在公园遇到了小红”,句子中“遇到”是谓词,“小明”是施事者,“小红”是受事者,“昨天”是事件发生的时间,“公园”是事件发生的地点。6816A859-14DE-4471-AE49-F887F905D427

互联网信息中包含实体的语义角色相似度旨在度量不同的互联网信息所含实体在各自文本中所扮演的语义角色的相似度,实体之间的语义角色相似度可以刻画不同互联网信息之间的实体在逻辑关系上的关联关系。实体语义角色相似度度量步骤如下:

步骤一:使用Pyltp工具对互联网信息中所含实体的语义角色进行标注。

步骤二:统计各个实体的语义角色以及作为该语义角色出现在文本中的频数;本文仅考虑施事、当事、领事、感事、受事、客事、成事、源事、涉事、比较、属事等20种语义角色。

步骤三:根据各个实体的语义角色以及各自角色出现的频数为每个实体构建一个长度为20维的向量V,向量的分量表示该实体在第i个语义角色上的归一化的频率。

步骤四:使用JS(Jensen-Shannon Divergence)距离计算不同互联网信息之间的实体交集中实体的语义角色向量之间的相似度。

步骤五:对交集中实体的语义角色相似度值按照实体出现的频数进行加权平均,得到新聞与事件实体交集的语义角色相似度值。

其中,JS距离的计算公式定义如式(4):

JS(P‖Q)=12KLP‖P+Q2+12KLQ‖P+Q2(4)

KL(P‖Q)=∑v∈VP(v)*logP(v)Q(v)(5)

其中,V表示语义角色集合,P为实体在互联网信息i中的语义角色分布,Q为实体在互联网信息j中的语义角色分布。

3)互联网信息之间的文本相似度计算

similarity=veci·vecjveci·vecj(6)

其中,veci和vecj分别是互联网信息i的特征向量(利用TF-IDF算法生成)和互联网信息j的特征向量(由TF-IDF算法生成)。相似度度量算法采用余弦相似度算法进行度量。

2.3.2 政策各维度正负面占比

本文基于公众视角建立的个人信息保护政策评价指标体系,其中的政策评价各维度正负面比例,主要是指网民关于特定维度的政策评论中正面情感评价的文本数量与负面情感评价的文本数量之比。政策评价各维度正负面比例包含政策内容评价(用户)正负面比例、政策程序评价(用户)正负面比例、处罚力度评价(用户)正负面比例、政策执行评价(用户)正负面比例和公众信任评价(用户)正负面比例。

其形式化定义为:G=(VT,VF,S,I),其中,G表示政策评价各维度评价,VT表示政策的正向评价集合,VF表示政策的负向评价集合,S表示政策内容,I表示政策评价维度集合。针对特定政策的某个政策评价维度即s∈S,i∈I:

rateTF=card(VT)card(VF)*100%(7)

以往相关舆情分析中通用文本情感倾向分析方法为本文的政策用户评价情感计算提供了良好的基础,但公共政策相关用户评价情感计算具有公共政策的特殊性。本文基于2.2节公众对个人信息保护政策深度访谈数据分析,通过手工标注的方式对个人信息保护政策公众评价进行了公共政策内容、公共政策宣传、公共政策执行、公共政策效果等维度的划分,并结合构建的用于辅助挖掘政策舆论的评价词表,对输入训练模型评价特征进行提取,其中,评价特征包括统计特征和评价极性分值两种类型,通过将原贴—评论文本对和评价特征输入Bert预训练模型,完成模型的训练,最后利用训练完的模型实现在社会化媒体下公众对个人信息保护政策在不同政策维度下的评价判别,细粒度挖掘公众评价倾向,详细计算步骤如下:

1)数据预处理。通过文本预处理模块将社交平台网民评论中的表情符号、用户名、非中文特殊符号、繁体字、各类链接等进行过滤和处理。

2)公共政策分类标注。通过访谈和手工标注的方式,对网民关于个人信息保护政策评价进行分类,分类维度如下:公共政策内容、公共政策程序、处罚力度、公共政策执行、公众信任。基于政策评价分类,对个人信息保护政策的网民微博评论数据进行了人工标注,标注标准是根据公众对原帖文本内容在某一政策维度上的评价判别,即对某一政策维度是否支持或不相关。一条评论文本可能体现多个政策维度上的评价观点。

3)评价词表构建。通过手工构建公共政策社交平台网民评价正负面评价情感词表。

4)评价特征提取。基于评价词典分别采用统计特征和评价极性分值计算的方法抽取评论文本的特征。其中,统计特征包含评价词在文本内的占比、否定词、程度副词、有特殊符号反语成分占比等。评价分值计算采用基于词典的评价词权值累乘得出的评价极性分值。首先对文本进行断句和预处理,针对文本中出现的评价词、否定词、程度副词、特殊标点符号进行词典匹配,若存在词典相对应字词,则赋以不同的权重值,并利用权值累计相乘计算评价极性分值,然后把子句的极性分值相加得到文本的评价分值。利用上述两种方法,最终将抽取评价特征。

5)基于Bert[28]训练模型构建。本文基于Bert模型的双文本任务,进行公众评论文本对个人信息保护政策相关内容的评价判别模型构建。Bert使用双向Transformer兼顾上下文,将循环神经网络的隐藏层进行拼接,并分别表示政策原帖与公众评论文本的双向特征表示。对于每一个输入的文本,它的表征由其对应的词表征、段表征和位置表征拼接产生。特殊标记符“[SEP]”代表分隔的句对,且句对输入会有两种段表征。本研究采用了BaseBERT模型,在句对表征后又拼接了公众评价特征向量作为模型的输入,对特定公共政策的公众评价进行“支持”“不支持”“中立”三分类判别,如图4所示。

6)情感计算输出。将个人信息保护政策的社交平台网民评论数据作为输入,通过模型计算,对政策评价各维度“支持”“不支持”“中立”进行判断和输出。通过BERT+情感词表进行情感模型训练后相关情感倾向判定在不同政策维度上的精确率、召回率如表5所示。6816A859-14DE-4471-AE49-F887F905D427

关于政策各维度用户评价情感计算的详细模型参数设置和计算精度提升效果参见作者此前发表的另一篇文献[24]。

2.4 基于评价指标的计算模型设计

为组织专家对评价指标体系进行论证,采用层次模糊逻辑方法[25]对专家意见进行综合,主要思路是首先确定专家委员会各专家的投票权重,然后针对建立的指标体系,专家对每两个指标的重要关系进行打分,采用5维度比较标度法进行打分参考,可用来衡量各评估指标的相对重要程度,根据打分结果计算得到每一层级指标的相对权重,最终得到指标体系的权重矩阵。根据权重矩阵,上层指标的定量值可根据下层指标的定量值加权得到。

2.4.1指标评分专家

政策评分专家信息如表6所示。

2.4.2 处理计算流程

步骤一:制作打分表。依据5维度比较标度法制作专家打分表。

步骤二:专家打分。邀请11位专家通过衡量各评估指标对评估目标的相对重要程度,将指标进行两两比较打分。

步骤三:权重矩阵。根据打分结果计算得到每一层级指标的相对权重,最终得到评价指标体系的权重矩阵。

步骤四:数据预处理。得到指标权重后,通过政策实际采集数据发现,由于指标项之间数据存在数量级的差异,为避免由于量纲不同使某些指标形成主导作用,影响评价结果,因此,需要对数据进行归一化处理,其中归一化处理计算如式(8)所示。

CFvali=dri-drmindrmax-drmin(8)

其中,dri是指第i个指标值。

dri=log2(vali+1)(9)

其中,CFvali是指第i个指标值归一化后的结果。

drmin和drmax分别是指同类指标中dr得分最小和最大的指标值。

步骤五:计算指标得分。级别i的第j个指标权重为CWeightij,归一化后的级别i的第j个指标的值为CFvalij,则指标得分CValueij为:

CValueij=CFvalij*CWeightij(10)

步骤六:计算综合得分。将各级指标汇聚后乘以准则层指标权重,则得到综合得分计算公式(11)。

Score綜合=∑k(∑j∈kCValueij)*BWeihgtk*θi(11)

BWeihgtk指第k行的基准指标权重。

θi是指调节系数,以相同倍数的变大或缩小,使Score值域处在一个规定可比区间。依据计算出各层级指标的权重,即可计算得出个人信息保护政策评价计算模型,指标权重如表7所示。

3 个人信息保护政策网民评价文本计算分析

3.1 政策案例选取

本文选取2018年以来发布的6项个人信息保护政策作为实证研究,具体政策如表8所示,以上政策发布之后在各类网络媒体平台得到广泛的传播和讨论,政策信息的网民评价具备代表性。

3.2 政策网民评价数据收集

本文借助中科院自动化研究所产业化平台中科闻歌推出的“闻海”开源大数据平台下载6项个人信息保护政策在微博、微信和主流媒体渠道的相关数据。其中,主流媒体包括1 579个新闻网站、1 079家电子报纸,新闻网站包括国内主流媒体、省市级媒体、地方级媒体和行业媒体;电子报纸包括国家级报刊、省级报刊和部分地方级报纸的电子版;微信平台数据是指微信公众号数据,收集到的政策相关数据量如表8所示。伴随着个人信息保护立法及相关政策的出台,由于该政策与个人隐私密切相关,成为当时的网络热点话题,因此受众在微博、微信等社交平台上对相关政策话题关注度极高,参与的受众较多,在本研究选择的6个政策上引发的受众最大阅读数近1亿,最小阅读数也达到90多万,因此本研究的网络评价数据具有一定的有效性。

3.3 政策评价数据计算结果及分析

通过处理计算流程步骤六,将各案例政策的各级指标得分汇聚后乘以准则层指标权重,得到各案例政策的综合得分如表11所示。

从各案例政策的综合整体评价方面看,得分越高,说明政策的宣传推广和网民评价越好;从6个政策的评价得分看,《关于开展APP违法违规收集使用个人信息专项治理的公告》获得的评分最高。而《个人金融信息(数据)保护试行办法(初稿)》政策获得的评分最低。排在评价效果排名第二位的是《儿童个人信息网络保护规定》政策;排在评价效果排名第三位的是《信息安全技术个人信息安全规范》政策;《快递暂行条例》和欧盟《通用数据保护条例》分别排在第四位和第五位。

具体从政策各维度评价计算得分上分析,公众对于欧盟《通用数据保护条例》政策内容评价最高,对《儿童个人信息网络保护规定》政策内容评价次之,而对《快递暂行条例》政策内容方面的评价负面情绪较多,表明公众对该政策的内容不认可度较高。在政策程序网民评价方面,计算结果均大于1,说明公众对于6个政策在政策程序方面正面评价数量均高于负面评价,表明公众比较认可个人信息保护政策的政策程序。在处罚力度网民评价方面,公众对《关于开展APP违法违规收集使用个人信息专项治理的公告》政策的评价得分最高,从6个政策评价上看,只有《快递暂行条例》在此维度上出现了小于1的计算结果,表明公众在处罚力度方面的评价负面情绪高于正面情绪。在政策效果评价方面,公众对《关于开展APP违法违规收集使用个人信息专项治理的公告》政策的评价得分最高,公众同样对《快递暂行条例》在政策效果方面不满意情绪最多。

在政策传播扩散方面计算得分上分析,在微信平台上,《关于开展APP违法违规收集使用个人信息专项治理的公告》政策引发的传播量最大,传播范围最广,从其引发的阅读数99 415 740可见一斑,其次是《儿童个人信息网络保护规定》和《信息安全技术个人信息安全规范》,《儿童个人信息网络保护规定》政策在微信平台引发的总阅读数为22 967 415,《信息安全技术个人信息安全规范》政策在微信平台上引发的总阅读数为48 022 758。在微信平台上传播效果最差的是《个人金融信息(数据)保护试行办法(初稿)》,因其属于特定领域政策,其受众具有一定的领域特性,所以其引发的传播量并不大,总体比前两个政策差两个数量级。在微博平台上,《儿童个人信息网络保护规定》法规政策引发的发文量、点赞量、转发量最大,《关于开展APP违法违规收集使用个人信息专项治理的公告》引发的传播量次之,但《关于开展APP违法违规收集使用个人信息专项治理的公告》在微博平台上引发的公众讨论最多。在微博平台上,传播情况最差的是《个人金融信息(数据)保护试行办法(初稿)》,这也与政策的行业属性有非常大的关系。6816A859-14DE-4471-AE49-F887F905D427

通过对6项政策在网站和电子报纸两个传统传播渠道的计算得分进行对比分析,发现相关政策在网站与电子报纸上的传播量成正相关,即特定政策如果在电子报纸上报道量比较大,那么相应的在网站上引发的传播量也较高。在网站、电子报纸上传播量最大的是《关于开展APP违法违规收集使用个人信息专项治理的公告》,传播量最小的是《个人金融信息(数据)保护试行办法(初稿)》。

在议程匹配度方面,网络主流媒体报道主题与社交平台上网民关注焦点重合度最高的是《信息安全技术个人信息安全规范》,其次是《个人金融信息(数据)保护试行办法(初稿)》,值得注意的是两个政策都具有领域属性,利用社交平台的开放性了解网民关切,同时借助主流媒体的权威性及公信力,达到了较好的传播效果。

在政府信任方面,《关于开展APP违法违规收集使用个人信息专项治理的公告》在政策执行和公众信任评价方面都取得了较好的网民评价,而《快递暂行条例》在政策执行和公众信任评价方面网民评价负面情绪最多。

4 个人信息保护政策建议

通过对实验结果地分析,为提高个人信息保护政策的公众认可度,本文提出如下建议:

1)提高公众对政策认可的前提是公众对相关公共政策的知悉和了解,通过对《关于开展APP违法违规收集使用个人信息专项治理的公告》《儿童个人信息网络保护规定》《信息安全技术个人信息安全规范》3个政策的量化计算发现,这3个政策在政策传播扩散方面均取得较好的传播效果,在社交平台上引起了网民的广泛关注和讨论,但是具有行业属性的公共政策,虽然在社交平台上有人讨论,但是由于专业性较强,不容易引起广泛的关注和传播,因此针对具有行业属性的公共政策,如果按常规的传播手段进行政策传播,难以取得理想效果,需首先借鉴科普传播的形式,将专业术语进行转述,再广泛借助主流媒体和社交平台的交互融合,拓宽公共政策信息的传播渠道,提高公共政策的覆盖度。

2)通过借助社交平台了解网民对于特定公共政策的关注焦点及负面评价,尤其是針对政策不同维度(政策内容、处罚力度、政策执行等)的负面评价,如本文中的《快递暂行条例》政策处罚力度方面的负面评价较多。一方面,可以对政策进行有针对性的调整;另一方面,可借助主流媒体的权威性及公信力,调整主流媒体报道的议程,持续回应公众关切,并通过收集相关网民评论数据,实时计算网民负面评价情况,对回应策略及效果进行实时分析,提高公众认可度。

3)提高公共政策程序和执行的透明度,比如本文中公众对《快递暂行条例》的处罚力度和处罚结果讨论存在较多不满,进一步影响到了公众对政策制定和执行者的信任。因此,有必要将公共政策程序和政策执行结果,通过社交平台的官方账号进行及时的公布和报道,提高公众对政府的信任水平。

5 结 语

本文从网民评价视角入手,以个人信息保护政策为具体研究对象,构建基于网络媒体的公共政策网民评价计算框架,实现对网民关于公共政策意见的及时、多维、量化计算,并针对具体公共政策展开实证分析。本文构建的个人信息保护政策网民评价文本计算框架,支持从政策内容、政策执行、政府信任等维度对网民评价进行细粒度分析,能够精准定位个人信息保护政策过程中的网民关注的具体问题,可作为政府相关部门了解个人信息保护政策相关网络民意的重要维度,为包括个人信息保护政策在内的其他公共政策评价提供了有效补充。但本研究也有不足之处,如本研究所涉及的网民只代表了可以上网的大众,存在幸存者偏差。此外,本研究提出的基于网络评论的计算框架不能完全替代基于文献、调查等方式的传统公共政策评价方式,将网络评价文本挖掘和传统访谈、调查等方法相结合,进一步增大访谈样本的数量,并对两类分析结果进行交叉验证和相互补充,将是本研究下一步研究方向。

参考文献

[1]Leslie Alexander Pal.Public Policy Analysis:An Introduction[M].Nelson Canada,1992.

[2]张焱,戴楷然,支宇珩.媒体对公共政策过程影响研究综述:“传统媒体”框架的失灵与“社交媒体”框架的缺失[J].西华大学学报:哲学社会科学版,2018,(5):102-108.

[3]中国互联网络信息中心.第48次《中国互联网络发展状况统计报告》[R].北京:中国互联网络信息中心,2021.

[4]郑志峰.网络社会的被遗忘权研究[J].法商研究,2015,32(6):50-60.

[5]周庆山.完善我国个人信息保护管理制度的思考[J].社会治理,2018,21(1):34-41.

[6]王楠.网络民意与公共决策关系探究[D].西安:西北大学,2014.

[7]Rao K,Dey S.Decision Support for E-Governance:A Text Mining Approach[J].International Journal of Managing Information Technology,2011,3(3):73-91.

[8]Kalampokis E,Hausenblas M,Tarabanis K.Combining Social and Government Open Data for Participatory Decision-Making[M].Electronic Participation.Springer Berlin Heidelberg,2011.

[9]Huang X Y.Internet Public Opinion Analysis:Intelligence Services for Government Decision-making[J].Journal of Modern Information,2012.6816A859-14DE-4471-AE49-F887F905D427

[10]Chung K S K,Chatfield A T.An Empirical Analysis of Online Social Network Structure to Understand Citizen Engagement in Public Policy and Community Building[J].International Journal of Electronic Governance,2011,4(1/2):85-103.

[11]Alfaro C,Cano-Montero J,Gómez J,et al.A Multi-stage Method for Content Classification and Opinion Mining on Weblog Comments[J].Annals of Operations Research,2016,236(1):197-213.

[12]Ceron A,Negri F.The“Social Side”of Public Policy:
Monitoring Online Public Opinion and Its Mobilization During the Policy Cycle[J].Policy & Internet,2016,8(2):131-147.

[13]Chung W,Zeng D.Social-media-based Public Policy Informatics:Sentiment and Network.Analyses of U.S.Immigration and Border Security[J].Journal of the Association for Information Science & Technology,2016,67(7):1588-1606.

[14]何志武,陈呈.网络民意的表达路径与收集机制研究——基于政策议程设置的视角[J].中州学刊,2019,(11):165-172.

[15]Song M,Kim M C,Jeong Y K.Analyzing the Political Landscape of 2012 Korean Presidential Election in Twitter[J].IEEE Intelligent Systems,2014,29(2):18-26.

[16]Li Y,Dai G,Zhu Y,et al.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,13(5):902-906.

[17]Zhou P,Cai S Q,Shi S Y,et al.Content Aggregation of Microblogging Public Opinion Events Based on Keyword Extraction[J].Journal of Intelligence,2014.

[18]Lu Z W.The Design of Public Opinion Analysis System Based on Micro-Blog[C]//International Conference on Information System & Artificial Intelligence.IEEE,2017.

[19]邱尔丽,张竞,王雨舟,等.基于网络舆情大数据的公共政策评价研究[J].领导科学,2021,(8):118-121.

[20]邓莎莎,张朋柱,李欣苗.政府公共决策领域中网络民意建模方法研究[J].现代图书情报技术,2012,(9):69-74.

[21]何志武,陈呈.公共决策视域下的网络民意分析:主体性、科学性与倾向性[J].电子政务,2020,(2):66-75.

[22]张敬伟,马东俊.扎根理论研究法与管理学研究[ J ].现代管理科学,2009,(2):115-117.

[23]胡欣杰,路雨楠,路川.基于聚类分析的网络舆情倾向性分析研究[J].兵器装备工程学报,2019,40(5):115-118.

[24]赵菲菲,王宇琪,周庆山,等.个人信息保护政策网络评价的文本分析建模研究[J].情报杂志,2020,39(8):154-159.

[25]Saaty T L.How to Make a Decision:The Analytic Hierarchy Process[J].European Journal of Operational Research,1994,24(6):19-43.

[26]Sun W,Sui Z,Wang M,et al.Chinese Semantic Role Labeling with Shallow Parsing[C]//Conference.on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2009.

[27]Liu M Y,Tu Z Y,Wang Z J,et al.LTP:A New Active Learning Strategy for Bert-crf Based Named Entity Recognition[J].arXiv Preprint arXiv:2001.02524,2020.

[28]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of Deep Bidirectional Transformers for Language.Understanding[J].arXiv Preprint arXiv:1810.04805,2018.

(責任编辑:郭沫含)6816A859-14DE-4471-AE49-F887F905D427

推荐访问:量化 个人信息 模型