申请完域名如何建网站搜索引擎优化和关键词竞价广告的区别
2026/5/21 16:17:47 网站建设 项目流程
申请完域名如何建网站,搜索引擎优化和关键词竞价广告的区别,最新免费网站源码资源网站,10m带宽做下载网站本文详细介绍了Word2Vec技术#xff0c;包括其基本概念、Skip-Gram和CBOW两种模型与架构。文章指导读者如何从数据收集、预处理到训练自己的Word2Vec模型#xff0c;并提供了评估方法。同时分析了Word2Vec的优缺点及其在文本相似度计算、情感分析等领域的应用#xff0c;为N…本文详细介绍了Word2Vec技术包括其基本概念、Skip-Gram和CBOW两种模型与架构。文章指导读者如何从数据收集、预处理到训练自己的Word2Vec模型并提供了评估方法。同时分析了Word2Vec的优缺点及其在文本相似度计算、情感分析等领域的应用为NLP初学者提供了完整的学习路径。 目录一、Word2Vec二、Word2Vec 的两种主要模型2.1、Skip-Gram(跳字模型)2.2、CBOW(连续词袋)三、Word2Vec的两种主要架构3.1、跳字模型Skip-Gram3.2、连续词袋Continuous Bag of Words, CBOW四、构建自己的 Word2Vec 模型4.1、数据收集和预处理4.2、训练模型4.3、评估与应用五、模型的优缺点5.1、优点5.2、缺点六、Word2Vec 有哪些实际的应用场景一、Word2VecWord2Vec顾名思义就是词语 to 向量。Word2Vec 的主要能力是把词汇放在多维的空间里相似的词汇会被放在邻近的位置。Word2Vec是一种广泛使用的 NLP 技术目的是将词语转换成向量形式使计算机能够理解。它通过学习大量文本数据捕捉到词语间的上下文关系进而生成词的高维表示即词向量。Word2Vec 的优点是能够揭示词与词之间的相似性比如通过计算向量之间的距离来找到语义上相近的词。Word2Vec 的应用非常广泛包括但不限于情感分析、机器翻译和推荐系统等。尽管非常有用但是它也有局限性比如无法处理多义词因为每个词仅被赋予一个向量不考虑上下文中的多种含义。二、Word2Vec 的两种主要模型2.1、Skip-Gram(跳字模型)Skip-Gram 的目标是根据目标词预测其周围的上下文词汇。2.2、CBOW(连续词袋)CBOW 模型的目标是根据周围的上下文词汇来预测目标词。三、Word2Vec的两种主要架构3.1、跳字模型Skip-Gram跳字模型Skip-Gram架构的示意图。List itemSkip-Gram 模型它是一种通过一个给定的目标词来预测其上下文词的神经网络架构。与 CBOW 模型相反Skip-Gram 每次接收一个词作为输入并预测它周围的词这使其在处理较大数据集和捕获罕见词或短语时表现更出色。3.2、连续词袋Continuous Bag of Words, CBOW连续词袋Continuous Bag of Words, CBOW架构的示意图。CBOW 模型它是一种通过上下文预测目标词的神经网络架构。在 Word2Vec 中CBOW 尝试从一个词的“上下文”来预测这个词本身。上下文由目标词周围的一个或多个词组成这个数目由窗口大小决定。窗口是指上下文词语的范围如果窗口为 10那么模型将使用目标词前后各 10 个词。四、构建自己的 Word2Vec 模型4.1、数据收集和预处理网上下载了一个公开的微博内容数据集。我们先进行文本预处理。回想一下我们前几节课提到的方法步骤就是数据加载 - 去除停用词 - 分词等等。这里我们就进行这些简单的预处理操作。import jiebaimport xml.etree.ElementTree as ET# 读取XML文件并解析file_path data.xmltree ET.parse(file_path)root tree.getroot()# 获取所有article标签的内容texts [record.find(article).text for record in root.findall(RECORD)]print(len(texts))# 停用词列表实际应用中需要根据实际情况扩展stop_words set([的, 了, 在, 是, 我, 有, 和, 就])# 分词和去除停用词processed_texts []for text in texts: if text is not None: words jieba.cut(text) processed_text [word for word in words if word not in stop_words] processed_texts.append(processed_text)# 打印预处理后的文本for text in processed_texts: print(text)预处理完成后产生了 40831 条数据用来训练。4.2、训练模型我们直接使用 gensim 库这个库提供了一个简洁的 API 来训练 Word2Vec 模型。我们选择 CBOW 模型。vector_size 参数设置了词向量的维度window 参数设置了上下文窗口的大小min_count 参数设置了词频的最小阈值workers 参数设置了训练的线程数sg1 表示使用 Skip-Gram 架构sg0 表示使用 CBOW 架构。你可以看一下具体的代码。# 训练Word2Vec模型model Word2Vec(sentencesprocessed_texts, vector_size100, window5, min_count1, workers4, sg1)# 保存模型model.save(word2vec.model)当执行完上面的代码后本地生成了 3 个文件。word2vec.model主模型文件包含了模型的参数、词汇表等信息。不仅存储了模型的架构信息还包括了词汇频率、模型训练状态等。这个文件是加载完整模型所必需的。word2vec.model.wv.vectors.npy这个文件存储了模型中所有词汇的词向量。Word2Vec 模型通过学习这些词向量来捕捉词语之间的关系。.npy 是 NumPy 数组的文件格式这意味着这些向量是以 NumPy 数组的形式存储的可以高效地加载和处理。word2vec.model.syn1neg.npy这个文件存储的是训练过程中使用的负采样权重。当设置 Word2Vec 模型的 negative 参数大于 0 时启用负采样来优化模型的训练过程。这个文件中的权重是模型训练中用于负采样的部分对于模型的学习和生成词向量至关重要。4.3、评估与应用模型训练完成我们可以简单看一下效果。# 加载模型model Word2Vec.load(word2vec.model)print(模型加载完成)# 使用模型# 获取一个词的向量print(model.wv[科技])# 找到最相似的词similar_words model.wv.most_similar(科技, topn5)print(similar_words)程序输出如下[ 0.08377746 1.4331518 0.5016794 -0.09138884 -0.1221515 -0.08544948 0.20863684 0.9883061 -0.26002824 -0.02130504 0.43953782 -0.11446979 0.4636304 -0.67642045 0.47473285 -0.4832982 0.35540286 -0.5201831 0.0174433 -0.40980706 -0.14922573 0.5372444 0.53256696 -0.4517828 -1.1696991 0.32669672 -0.34389514 0.5889707 -0.20616521 -0.20512877 0.6516593 -1.3999687 -0.00352089 0.422699 -0.32610646 1.5900621 0.8748267 -0.00933662 -0.77871656 -0.2894545 0.7261106 -0.05075585 -0.5845707 0.7334658 -0.22150414 0.3801838 -0.50801146 -0.8370443 -0.03138219 0.08028921 0.2562184 -0.49664307 -0.8038274 0.0211964 -0.6316118 0.12551498 0.58615136 0.467213 -0.15562508 -0.58768135 0.07793431 0.19536994 -0.1413024 -0.3790597 0.19154921 0.4437868 0.08398101 0.10911901 -0.6428759 -0.07833739 -0.8982224 0.8185256 0.4029754 0.05831718 -0.23952699 0.06487722 -0.6090112 -0.03935737 -0.1745928 0.2225394 -0.7901157 -0.08253222 -0.3205032 0.16001679 -0.06188322 -0.4120766 -0.55351204 1.1411817 -0.24971966 0.01067457 0.205598 0.4778782 -0.2214068 -0.5329161 0.9778511 0.5545867 0.50671256 0.6427801 -0.45557818 -0.29751778][(产业, 0.9526691436767578), (创新, 0.9492118954658508), (生态, 0.9462338089942932), (应用, 0.9439343810081482), (战略, 0.9437689185142517)]这是一个 100 维的向量空间和科技比较相似的词有产业、创新、生态、应用、战略。看着还挺像这么回事基本准确的。我们怎么科学地进行评估呢有好几种方式。词相似度计算通过比较模型生成的词与人工标注的词的相似度来评估模型一致性越高说明效果越好。常用的数据集包括 WordSim-353、SimLex-999 等。词类比计算评估模型在解决“词 A 之于词 B 如同词 C 之于什么”这类问题的能力比如北京之于中国如同巴黎之于什么OOV 词比率评估数据集中有多少词对因为包含未知词模型词汇表外的词而被排除在评估之外的比率。理想情况下OOV 率应该尽可能低以确保评估结果能更全面地代表模型的性能。定性分析对于给定的词汇查看模型认为与其最相似的其他词汇判断这些相似词是否符合预期。实际应用将 Word2Vec 模型应用到具体的下游任务如文本分类、情感分析、实体识别等观察模型表现的提升。通过比较使用 Word2Vec 词向量前后的任务表现可以间接评估 Word2Vec 模型的有效性。我们采用第一种方式来详细看一下评估过程。首先手动创建评估数据集valid.tsv内容如下总共 3 列第 1 列和第 2 列是相似词第 3 列是我人工打的分实际评估过程中评估数据集可以自己基于偏好进行人工打分同时准备的词汇数量可以再多一些为了节省时间我只准备了二十来个词。数据集准备好就可以评估了。# 加载模型model Word2Vec.load(word2vec.model)print(模型加载完成)# 类比result model.wv.evaluate_word_pairs(valid.tsv)print(result)运行程序输入如下结果(PearsonRResult(statistic0.5510228130115481, pvalue0.021875787422131296), SignificanceResult(statistic0.5076852492192858, pvalue0.03748715633121946), 10.526315789473683)整体分为 Pearson 和 Spearman 相关性系数以及 OOV 率先来看 Pearson 系数。statistic0.5510228130115481范围从 -1 到 1其中 1 表示完全正相关-1 表示完全负相关0 表示无相关。这个值 0.55 意味着我们的模型词向量与人工评分之间存在中等程度的正相关。pvalue0.021875787422131296这是 p 值用于检验相关性的统计显著性。一个常用的显著性水平阈值是 0.05。这个 p 值约 0.022小于 0.05意味着这个相关性是统计显著的我们有足够的证据认为模型的词向量与人工评分之间的相关性不是偶然出现的。简单来讲就像摇奖现场的公证员一样证明评估结果不是偶然的是有说服力的。再来看 Spearman 系数。statistic0.5076852492192858同样范围从 -1 到 1。Spearman 相关性考虑的是变量之间的等级相关而不是直接的数值大小。这个值 0.51 也表示了中等程度的正相关。pvalue0.03748715633121946同样是 p 值小于 0.05 的常用显著性水平表示这种相关性是统计显著的。最后看下 OOV 率就是评估数据集中出现的词汇不在模型词汇表里的概率。10.526315789473683表示在我们的评估数据集中有大约 10.53% 的词对包含至少一个不在模型词汇表中的词OOV 词。这部分词对在评估过程中被忽略不参与相关性计算。总体看一个好的 Word2Vec 模型应该在相关性测试中展现出与人类判断一致的趋势比如有较高的 Pearson 和 Spearman 相关性系数、具有统计显著性即较低的 p 值同时具有可接受的 OOV 率。我们本次训练的模型相关性系数呈中等统计显著的 p 值较低表明模型有一定效果但是否“足够好”还需要根据模型的实际应用场景和要求来决定。比如对于一些应用来说可能需要更高的相似度准确性而对于其他应用来说当前模型的表现可能已经足够。另外我们还需要探索降低 OOV 率的方法比如扩大训练数据集或采用预训练的词向量可能会进一步提升模型的表现。其他评估方法我们就不一一尝试了大同小异感兴趣的话你可以挨个试一下。五、模型的优缺点5.1、优点词嵌入质量高Word2Vec 能够学习到富含语义信息的高质量词向量使语义上相近的词在向量空间中也相近。捕捉多种语言规律Word2Vec 能够捕捉到一定的语法和语义规律比如词类比男人之于女人如同国王之于王后。效率高相比于早期的基于矩阵分解的词嵌入方法Word2Vec 的训练效率更高尤其是在处理大规模语料库时。可解释性Word2Vec 模型学习到的词向量具有一定的可解释性可以通过向量运算进行词之间的关系探索。5.2、缺点OOV 问题Word2Vec 模型只能对其训练期间见过的词汇生成向量。对于新出现的或者罕见的词汇模型无法直接提供词向量尽管可以通过一些技巧进行处理。词义多样性Word2Vec 为每个词汇生成一个唯一的向量因此无法直接处理一个词多种含义的情况也就是多义词问题。依赖于大量文本数据为了训练出高质量的词向量Word2Vec 需要大量的文本数据。在数据量较小的情况下模型的效果可能会受限。上下文独立Word2Vec 生成的词向量是静态的不考虑词在特定句子中的上下文。这与后来的上下文相关的词嵌入模型如 ELMo、BERT 等形成对比。缺乏层次化表示Word2Vec 提供的是词汇级别的向量表示缺乏更细致的语法和语义结构信息这些在一些复杂的 NLP 任务中可能是必需的。六、Word2Vec 有哪些实际的应用场景Word2Vec 模型因为能够捕捉到词语和词语之间复杂的语义语法关系所以在 NLP 任务中被广泛使用。计算文本相似度比较文本中词向量的平均值或加权平均值可以用于文档分类、推荐系统中相似项目的检索或者在法律文档、学术论文等领域内查找相关内容。情感分析尤其是社交媒体平台用 Word2Vec 模型来识别用户评论、帖子或新闻报道中的情绪态度。机器翻译Word2Vec 可以用来生成源语言和目标语言的词向量通过这些向量可以改进翻译模型的性能尤其是在处理罕见词或短语时Word2Vec 能够提供更加丰富的语义信息。搜索引擎优化在搜索引擎中Word2Vec 可以用来理解用户查询的意图并提高搜索结果的相关性。通过分析查询和文档内容的词向量相似度搜索引擎能够提供更准确、更贴近用户意图的搜索结果。内容推荐系统在推荐系统中Word2Vec 可以用来分析用户的阅读或购买历史并推荐语义上相近的产品或内容。这种基于内容的推荐方式能够提供更加个性化的推荐提高用户满意度和参与度。AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享01.从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​02.AI大模型学习路线图还有视频解说全过程AI大模型学习路线​03.学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的04.大模型面试题目详解05.这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询