2026/4/6 7:55:51
网站建设
项目流程
网站整体设计流程,wordpress 跨页面获取,哪个软件傻瓜式做网站,烟台搭建网站建设制作社交网络民生资讯情感检测与舆情分析研究
目录
1 绪论 1
1.1 研究背景 1
1.2 研究意义 2
1.2.1 理论意义 2
1.2.2 现实意义 3
1.3 研究现状 3
1.3.1 国外研究现状 3
1.3.2 国内研究现状 4
2 相关理论基础 7
2.1 分析方法概述 7
2.1.1 情感分析方法 7
2.1.2 热点话题检测方法 8
…社交网络民生资讯情感检测与舆情分析研究目录1 绪论 11.1 研究背景 11.2 研究意义 21.2.1 理论意义 21.2.2 现实意义 31.3 研究现状 31.3.1 国外研究现状 31.3.2 国内研究现状 42 相关理论基础 72.1 分析方法概述 72.1.1 情感分析方法 72.1.2 热点话题检测方法 82.2 文本预处理 9①数据清洗 9②中文分词 10③去除停用词 102.3 文本表示及特征提取 102.3.1 静态词向量模型 112.3.2 动态词向量模型 13参考文献 151 绪论1.1 研究背景随着网络技术的普及和网络的多元化发展网络已成为人们生活中必不可少的部分。截至2020年12月末第47次《中国互联网络发展状况统计报告》显示我国网民规模较2020年3月增长8540万互联网普及率达70.4%。通过该报告显示出大部分网民在各社交平台上体验时间较长社交平台为网络舆情的主要源头种类众多的社交平台与快速发展的互联网是形成网络舆情的重要因素。网络舆情是网民针对特定社会话题或事件表达出的态度和情感的总和。例如2021年4月28日“郑爽涉嫌签订阴阳合同被调查”当天事件持续处于微博热搜网民的评论持续上涨这些数据反映出网民的态度、观点或情感隐含着巨大的应用价值。现在的网络舆情具有自身特点主要为以下几点(1)自由性。网络是对人人都开放。在不同的平台上任何人都可以通过文字等不同的方式表达自己的观点。(2)突发性。用户规模大网络媒体传播速度快。当热点事件发生后网民之间的讨论可以迅速引发并引发更具影响力的舆论事件。(3)隐蔽性。网络用户可不采用真实信息隐蔽自己真实身份。部分人往往借助互联网的隐蔽性的特点在网上发表负面的观点和情感从而引导其他用户的判断方向严重时甚至会影响到网络舆情的走向。综合上述网络发展迅速和网络舆情特点能够发现对网络舆情研究有着巨大的实用价值。网络舆情的形成是通过网民们在网上发表的意见文本是大多数网民选择表达意见的最主要方式之一因此对文本情感的分析至关重要。若人工分析文本数据耗时较长因而需要计算机去分析舆情文本数据。利用机器学习、深度学习和自然语言处理技术来分析用户所发表的意见和态度已经成为了自然语言研究领域的热点之一同时也成为大多数从事此方向研究者的关注重点。如何从海量的舆情文本中挖掘和分析出民众情感态度为舆情引导提供帮助受到研究者的广泛关注。1.2 研究意义文本情感分析是网络舆情分析的主要环节其作用是舆情的分析和预测。尤其是面对庞大复杂的中文文本分类效果直接影响意见分析的整体方向。本文构建的中文文本情感分类模型将提高模型的分类效果进而实现更准确的网络舆情分析。1.2.1 理论意义深度学习在自然语言处理(NLP)领域有着很好的效果也可以将其算法应用于舆情文本情感分析领域的研究中。针对中文不均衡样本存在拟合问题与评测失衡的问题。针对以上问题再加上微博评论通常忽略大量背景知识的缺点本文尝试引入先验情感知识为模型提供监督信号。通过构建以上两种模型来提高文本情感分析方法的分类准确性。1.2.2 现实意义一是有利于检测到更全面的关键内容 识别网民的情感倾向 由此洞察用户对某事 件的真实态度和观点进而对特殊的节点进行舆情智能预警。二是为相关部门提供引导和决策的依据。通过网络舆情文本情感分析可以及时分析 网民们的情感动态 辅助相关部门对该事件进行决策 引导网络舆情的正确走向 避免 负面情感增长对舆情的良性发展具有重要意义。1.3 研究现状1.3.1 国外研究现状国外在网络舆情分析系统领域的研究起步较早技术相对成熟。国外研究者将深度学习技术引入推荐系统通过建模用户兴趣、行为等信息提高推荐系统的准确性和覆盖范围。同时国外还开展了跨媒体推荐系统的研究实现跨领域、多样化的舆情分析与监测。国外研究表明考虑用户之间的社交关系可以改善推荐系统的效果提高推荐结果的个性化和准确性。因此国外在舆情分析系统中也重视社交关系的影响通过挖掘和分析用户在社交网络上的行为、社交关系等内容实现更精准的舆情分析和监测。与国内相似国外的网络舆情分析系统也广泛应用于政府机构、企业、学术机构等领域。同时随着全球化的发展国外的舆情分析系统还加强对国际舆情的监测和分析为跨国企业提供全球化视角的支持。2020年初至今全球大规模爆发的新冠疫情不仅是对医疗技术的考验同时也是对社会舆情治理相关工作提出了严峻挑战。网络舆情是民意在各社交媒体平台上的综合体现对此国内外研究学者对于网络舆情展开了相关研究。新冠期间Pellert等人基于新闻平台 derstandard.at、Twitter和学生聊天室搭建情感实时监测平台检索疫情相关内容数据并进行舆情监测与情感分析分析展示了疫情期间各类情感的变化与内容分布Eleonora等人也同样通过搭建智能系统从Twitter平台中挖掘有关疫苗的相关推文实现低成本、实时和快速的跟踪公众对接种疫苗决策的看法。Jun等人则以微博为例针对突发公共卫生事件提出网络舆情的多阶段风险分级模型在一般舆情风险分级分析的基础上根据定期或重大信息更新的时间尺度持续关注网络舆情的风险等级有效的对网络舆情进行了多级监测。Xue等人综合事件主题和公众情感建模,分析了公众对港珠澳大桥的公众关注度实现了对公众热度趋势的跟踪观察。目前国外一些学者已经对突发事件网络舆情进行了大量研究Dong 等人认为每个时间间隔发布的贴文数量是一个具有多个小范围峰值和非线性特征的时间序列数据集提出了一种混合反向传播神经网络BPNN模型来预测这类时间序列数据集的特征。Zhao等人5基于复杂网络、信息传播和疾病传播理论结合温岭医生被害案研究通过实证数据与模拟实验相结合构建突发事件信息传播模型。Lv等人以微博数据为例提出了一种基于神经网络的校园微博突发舆情转发量预测模型解决了传统支持向量机等模型预测精度不高的问题。Li等人提出了一个多智能体建模的多因素传播模型该模型基于SEIR模型和NetLogo仿真分析综合了多种网络舆情传播特征对现有单一网络舆情传播模型进行了扩展。Zhao等人考虑到意见领袖在微博中的重要作用和用户对微博信息的兴趣基于新型冠状病毒肺炎模型和微博突发公共卫生事件信息构建了舆论传播SIR模型。在数据安全和隐私保护方面国外政府和企业也高度重视并制定了相关法规和标准来规范舆情分析系统的使用和数据处理流程。这有助于保护个人隐私和数据安全同时促进舆情分析系统的健康发展。1.3.2 国内研究现状近年来随着互联网的普及和社交媒体的兴起网络舆情分析系统市场规模迅速扩大。据中研普华产业院研究报告显示2022年中国舆情大数据市场规模达到134.38亿元同比增长13.26%。预计未来几年随着技术的不断进步和应用领域的不断拓展市场规模将继续保持快速增长的态势。网络舆情是互联网技术发展所带来的“副产品”随着互联网技术的迅速发展网络成为舆情汇集和传播的新阵地网络舆情逐渐上升为各类大众传媒和社会公众所关注的热点问题学术界也就此开展了一系列网络舆情的相关研究。截止到目前通过“中国知网”能够检索到主题为“网络舆情”的期刊论文1.25 万篇学位论文 3462篇(截止到2024年4月1日)。网络舆情分析系统广泛应用于政府机构、企业、学术机构、媒体等多个领域用于指导决策、市场洞察、风险评估等。在政府机构中舆情分析可用于政策制定、风险评估和应急管理等在企业中则可用于市场洞察、品牌管理和危机公关等。随着人工智能、云计算等技术的不断发展网络舆情分析的智能化和自动化程度进一步提升。自然语言处理NLP、机器学习ML和深度学习DL等技术的应用使舆情分析系统能够更准确地识别、分类和分析海量信息。在国内网络舆情的分析和国外稍有不同体现在以下几个方面:文本处理方面因为中文不同于英文完成数据采集后需要过滤掉不符合规则的文字和符号文本分词方面郑魁等在中国科学院分词的基础上提出了一种新型的网络舆情分词法–网络舆情热点发现分词法提高了网络舆情分词的精度情感分析方面姚天昉!]等人第一步先将语句的主题和属性分别提取出来进行语法分析判断文本主题和带有明显情感关键词的关系通过它们之间的关系来确定主题文本的情感倾向。谢丽星等人研究出来一种新型的多策略的情感倾向性分析和特征提取分别在情感字典、SVM、表情符号三个层次构建不同的情感计算模型采用三种不同的方法对中文文本进行情感倾向性研究。国内热西旦木·吐尔洪太等人结合机器学习与词典方法的优点构建基于词典和语料库的维吾尔文本情感分类模型对语料进行高质量情感分类。对比单独使用机器学习法和词典法此方法正确率得到了显著提高。戚天梅等人为充分挖掘外汇新闻中相关观点分析外汇新闻的数据特征提出面向外汇新闻文本的细粒度情感分析方法。采用基于朴素贝叶斯等多种机器学习算法设计融合情感词权重的情感计算方法提升了情感倾向的计算准确性。朱亚君等人收集藏文微博在对藏文进行实义词语抽取后结合SVM对藏文微博进行情感分类模型训练效果得到了显著提升的同时取得了较好的分类效果[]。随着深度学习方法在情感分析领域的广泛应用,相较于机器学习深度学习方法通过充分考虑词序与语义特征及结合上下文语序捕获非线性数据特征可得到更优的情感分类效果。国内研究者通过对社交网络数据的挖掘和分析揭示了中国特有的社交网络结构、用户行为模式等特点为社交网络研究提供了深入理解。同时国内学者还关注用户在社交网络上的行为特征探索用户兴趣演化、信息传播路径等问题为舆情分析提供数据基础。2 相关理论基础2.1 分析方法概述2.1.1 情感分析方法图2.1所示为分析文本情感的四个主要步骤各步骤中具体内容如下。图 2.1 情感分类方法流程图①数据获取及预处理情感分析使用的数据主要来源于公开数据集或基于社交网络手动采集的相关数据内容。公开数据集一般由公开比赛发布或有关机构或研究团队发布对公开数据集进行研究时无需经过繁琐的数据采集及脏数据清洗等工作过程即可得到较高质量的数据对于评价算法的改进优劣及性能优化程度上更具说服力但数据时效性较差对于舆情分析而言因研究方向及热点事件的变迁数据集大多是基于研究方向而进行有针对性信息爬取较新的数据往往更能体现较新的热点话题及相关舆情的发展态势。手动采集数据通常是从社交网站或者应用软件上通过数据采集技术获取相关文本数据此方法获取的数据会具备更多的不确定性和干扰因素因此需要有针对性的对数据进行甄别避免后续相关实验受到原始数据的干扰。基于社交平台发布的文本数据普遍具有自由度较高、文本内容杂等特点因此无论是使用公开数据集或采集数据集都需进行数据预处理来减少无关干扰因素对情感分类结果的影响。②文本表示及特征提取经数据预处理后的自然语言文本并不能直接被计算机理解与处理因此需要通过文本表示将文本数据转化为机器学习算法可处理的数值型向量再通过特征提取从文本数据中获取有用的信息或特征达成如下目的。1降维特征提取可通过筛选出文本中的代表性内容删除无关内容来降低文本向量维度由此降低算法计算复杂度及内存消耗有助于数据可视化的处理与分析2提高分类效果通过提取关键特征可实现去除噪声和冗余信息提高分类器性能和泛化能力的目的。3解决特征稀疏性问题对于短文本数据而言当大多数词语出现频率低时会引发文本稀疏性问题。而特征提取可通过对词语进行计数加权等方式来规避此问题。4提取语义信息通过特征提取可获取词语间的语义信息。将词语映射为某高维向量后各词语间的语义和语法相似度均可通过向量相似度表示。③模型训练及优化在进行模型训练前需要将数据集划分为训练集、测试机以及验证集为后续训练模型提供数据支撑。其次提取数据文本特征将所得结果输入至由分类模型之中通过训练集与验证集对模型进行训练最后在测试集上依据模型损失值Loss、准确率Accuracy、精确率Precision、召回率Recall等评价指标对训练后的模型进行性能评估评估结果有助于进一步通过改变特征表示等方法对分类模型进行微调及优化。④结果输出及应用依据不同领域数据进行优化后的分类模型在分析同类型新数据时输出更精准的结果应用到社交媒体、产品评论等具体场景时还可结合其他特征进一步分析情感分布规律。2.1.2 热点话题检测方法图 2.2 所示为本文中通过主题模型检测热点话题的四个主要步骤其中第一、 二步骤与 2.1.1 中情感分析方法相似其余步骤具体内容如下。图 2.2 热点话题检测方法流程图①主题模型训练及优化通过将提取的文本特征输入到主题建模算法中建立主题模型然后选择合适的机器学习算法如朴素贝叶斯、支持向量机、深度神经网络等进行模型训练。对于LDA主题模型而言可通过期望最大化算法对主题模型进行参数估计对于NTM主题模型则需利用梯度下降等优化算法通过最小化损失函数来实现模型参数的更新。判断模型已经收敛后可通过困惑度Perplexity、主题一致性指标TopicCoherence及主题分布多样性TopicDiversity等指标对模型性能进行评估。②热点话题识别及展示使用经参数调整后的主题模型对应用数据进行热点话题检测并通过相关可视化库进