网站在线帮助如何设计搜索引擎营销方式
2026/5/21 12:10:44 网站建设 项目流程
网站在线帮助如何设计,搜索引擎营销方式,网站空间怎么选,什么网站不能备案目录 12.1 什么是计算语言学#xff1f; 12.2 机器翻译 12.2.1 发展历程 12.2.1.1 机器翻译研究者的独立探索阶段 12.2.1.2 完美主义阶段 12.2.1.3 “沉寂” 阶段 12.2.1.4 翻译工具发展阶段 12.2.1.5 基于语料库的方法与基于实例的翻译 12.2.2 研究方法 12.2.2.1 语…目录12.1 什么是计算语言学12.2 机器翻译12.2.1 发展历程12.2.1.1 机器翻译研究者的独立探索阶段12.2.1.2 完美主义阶段12.2.1.3 “沉寂” 阶段12.2.1.4 翻译工具发展阶段12.2.1.5 基于语料库的方法与基于实例的翻译12.2.2 研究方法12.2.2.1 语言学方法12.2.2.2 实践方法12.2.3 机器翻译与翻译工具的评估12.2.4 机器翻译与互联网12.2.5 语音翻译12.2.6 机器翻译与人工翻译12.3 语料库语言学12.3.1 定义12.3.2 核心术语12.3.2.1 词形、类符、形符、一次词12.3.2.2 词目、词形12.3.2.3 标注、句法分析、注释12.3.3 发展、分类与分类体系12.3.3.1 第一代语料库12.3.3.2 大型语料库时代12.3.3.3 现代历时语料库12.3.3.4 专用语料库12.3.4 语料库的构建12.3.5 语料库与索引12.4 信息检索12.4.1 范围界定12.4.2 信息检索系统12.4.3 三个主要研究领域12.4.3.1 内容分析12.4.3.2 信息结构12.4.3.3 评估12.5 未来展望12.1 什么是计算语言学计算语言学是从计算视角对语言进行的科学性研究是介于语言学与计算机科学之间的交叉学科。计算机科学关注人类语言能力的计算层面即设计和实现计算机系统的理论与技术语言学则助力理解语言数据的特殊属性并提供语言结构与使用的理论和描述。总体而言计算语言学家致力于为各类语言现象构建计算模型这些模型既可以是 “基于知识的人工构建的”也可以是 “数据驱动的统计的或实证的”。从科学视角来看构建这类模型的目的是为特定的语言或心理语言现象提供计算层面的解释而从技术视角来看其目的可能更纯粹是为语音或自然语言系统提供可运行的组件乌斯考雷特1996/2000拉姆齐2000。计算语言学属于认知科学范畴与人工智能AI领域存在交叉 —— 人工智能是计算机科学的一个分支旨在构建人类认知的计算模型。自然地计算语言学家会参与所有这些领域的研究其他学科的研究者和实践者也不例外。例如计算机科学家、信息科学家、工程师、专业程序员甚至文学分析师都会参与设计和实现处理语言数据的浅层方法。然而自然语言处理NLP并非单纯的工程问题因为语言数据不同于其他数据它具有特殊属性。计算语言学家的核心贡献在于既理解这些语言属性语言学层面又掌握设计、实现及计算技术与相关问题计算机科学层面同时洞悉这两个领域的交叉点。成为一名计算语言学家比单纯成为语言学家或计算机科学家难度更大。这一切都表明计算语言学是一门交叉学科核心是利用计算机处理或生成人类语言即自然语言。在此我们不得不提及 “计算隐喻” 这一概念。计算隐喻之所以能发挥良好作用是因为语言本质上是一种软件形式。正如人类大脑是计算机硬件的模型人类语言也是计算机软件的模型。难怪语言学家是严格意义上的技术领域之外最早普遍掌握计算机知识的学者群体之一劳勒 德赖1998。根据余2003的观点计算机技术在语言研究中的应用以及自然语言相关算法的研究是计算语言学的核心研究领域。狭义而言计算语言学仅指上述两个方面。但随着计算语言学的发展其研究领域不断调整和拓展。亚历山大・克拉克等人2010指出“近年来计算语言学及其工程领域 —— 自然语言处理 —— 发展迅猛。它已从人工智能和形式语言学中一个相对冷门的附属领域迅速发展成为一门蓬勃的科学学科。在过去三十年里计算语言学和自然语言处理的研究重心已从对小型原型和理论模型的研究转向应用于大型语料库的稳健学习与处理系统。”我们无法涵盖这一学科的所有方面在本篇导论中我们将重点讨论以下几个领域机器翻译、语料库语言学和信息检索。12.2 机器翻译机器翻译MT不同于计算机辅助翻译CAT和机器辅助人工翻译MAHT指利用机器通常是计算机软件将文本从一种自然语言翻译成另一种自然语言。基于规则的机器翻译和基于语料库的机器翻译是机器翻译的两大主要方法。基于语料库的机器翻译可进一步分为统计机器翻译和基于实例的机器翻译。但一种融合了基于规则和统计方法优势的新方法 —— 混合机器翻译HMT正日益受到青睐。AppTek 公司于 2009 年发布了一款混合机器翻译系统其他多家机器翻译公司Asia Online、LinguaSys、Systran、PangeaMT、UPV也宣称采用了结合规则和统计的混合方法。尽管机器翻译在发展过程中历经起伏但它始终是计算语言学关注的核心问题。约翰・哈钦斯199519992001和马丁・凯在线已对其发展历程做了充分总结。12.2.1 发展历程12.2.1.1 机器翻译研究者的独立探索阶段第一阶段始于 1949 年沃伦・韦弗的备忘录这份备忘录有效推动了机器翻译研究的启动。20 世纪 50 年代初由于硬件条件的限制尤其是内存不足、存储访问速度慢且缺乏高级编程语言研究目标相对保守。此外当时的研究缺乏句法和语义领域语言专家的必要协助开展得不够充分。1954 年首次公开的机器翻译演示举行仅包含 250 个英俄双语词汇、6 条基本语法规则和 49 个精选的翻译样句。早期研究者还提出人类译者需深度参与既要对输入文本进行译前编辑也要对输出文本进行译后编辑。他们主张开发受控语言并将系统限制在特定领域使用。基于规则的机器翻译又称传统机器翻译是这一时期唯一的方法事实上在 20 世纪 90 年代之前它一直是机器翻译的主导方法。基于规则的机器翻译可进一步分为三类直接翻译法又称 “逐词翻译法”将源语言中的所有单词或短语直接转换为目标语言中的对应表达不考虑两种语言的语序差异。但语言间的结构差异使得逐词翻译难以实现有时会导致译文近乎胡言乱语。如今网页翻译中仍会使用直接翻译法以便外语水平有限的人快速理解内容。中间语言翻译法中间语言可以是任何自然语言、逻辑语言或人工语言。例如荷兰的 DLT 系统以世界语作为中间语言。其流程如下源语言→分析→中间语言→生成规则→目标语言。转换法流程如下源语言→分析→源语言中间态→转换→目标语言中间态→生成→目标语言。中间态即语言的深层结构。在机器翻译中考虑深层结构似乎有可能克服两种语言之间的结构差异。但遗憾的是句子的显性程度仍有待提高 —— 许多句子在深层结构上完全不同但表层结构可能相似甚至相同。此外该方法在处理句法歧义或语义歧义时也存在不足。12.2.1.2 完美主义阶段20 世纪 50 年代末美国、俄罗斯和西欧的研究者开始持有乐观态度。他们坚信高质量的科技文献机器翻译将在短短几年内成为可能。这或许也是对计算机硬件大幅改进、首批编程语言出现以及句法分析取得进展的回应。由于长期来看尚不清楚哪种方法最有效美国相关机构不得不支持大量项目。在全球对机器翻译的热情推动下研究重点转向探索实现 “完美翻译” 的理论和方法。当然也有不同的声音与主流的 “完美主义” 相悖。例如乔治敦大学和 IBM 的研究者承认机器翻译在生成可用译文方面存在长期限制。1960 年曾是机器翻译支持者的巴 - 希勒尔对基于理论的项目尤其是探索中间语言方法的项目提出了强烈批评并指出完全自动高质量翻译FAHQT是不可行的。12.2.1.3 “沉寂” 阶段1966 年美国自动语言处理咨询委员会发布了一份报告强调机器翻译研究未能实现其承诺堪称 “失败”。在 ALPAC 报告发布后的几年里机器翻译研究虽仍在继续但规模大幅缩减资源被重新导向语言处理的更基础性问题 —— 这些问题必须在构建任何翻译机器之前得到解决。这一阶段一直持续到 1975 年左右。12.2.1.4 翻译工具发展阶段对完美主义方法的失望促使研究者开始寻找更精密的翻译工具即翻译工作站以提高工作效率。研究在三个主要方向取得了一定成果面向译者的计算机工具、需要人类以多种方式协助的可运行机器翻译系统以及旨在改进机器翻译方法的 “纯” 理论研究。翻译工具的发展得益于一系列技术进步20 世纪 60 年代出现了实时交互式计算机环境70 年代出现了文字处理技术80 年代微型计算机、网络和大容量存储设备实现了大规模生产。最新的进展是 “翻译记忆库TM” 功能的出现它能够存储和调用已有的译文供后续部分复用、修订或作为翻译示例来源。如今市场上有超过 20 个品牌的翻译记忆库系统其中 TRADOS 最为流行。人们也逐渐认识到目前所有商业和可运行的机器翻译系统其输出结果若要达到出版质量都必须经过编辑或修订。12.2.1.5 基于语料库的方法与基于实例的翻译20 世纪 90 年代初基于语料库的方法尤其是统计方法和基于实例的翻译的引入为机器翻译研究注入了新的活力。统计随机技术摆脱了此前纯基于规则通常以句法为导向方法日益明显的局限性和不足。借助基于语料库的技术歧义消解、指代消解和更符合惯用表达的生成等问题变得更易处理。当然统计方法本身并不比基于规则的方法更能彻底解决所有问题但如今译文质量有望得到改善 —— 这在十年前似乎是难以实现的。基于实例的机器翻译极具前景对于基于规则的机器翻译而言若两种语言的语序和结构差异巨大结构转换问题几乎无法解决而对于基于实例的机器翻译只要语料库足够大且能妥善处理相似度度量问题理论上就能获得令人满意的译文。正如许多观察者所指出的最具前景的方法可能是融合基于规则和基于语料库的混合方法。即使在研究环境之外这种融合也已显现许多商业机器翻译系统现在都整合了翻译记忆库而许多翻译记忆库系统也在加入机器翻译方法。12.2.2 研究方法机器翻译的研究方法可从两个视角划分一是基于语言学理论的应用二是机器翻译研究者的实际实践。12.2.2.1 语言学方法机器翻译研究被视为检验新的语言形式化方法或新的计算技术的领域。换句话说机器翻译被看作是语言学理论的 “试验场”—— 因为非专业人士也能评判机器翻译的质量。20 世纪 50-60 年代相关的理论包括信息论、范畴语法、转换生成语法、依存语法和层次语法70-80 年代包括人工智能、非语言知识库以及词汇功能语法、广义短语结构语法、中心词驱动短语结构语法、限定从句语法、原则与参数理论、蒙塔古语义学等形式化方法90 年代则包括神经网络、连接主义、并行处理和统计方法等。后来人们发现这些新理论在小型样本的初步试验中取得了成功但最终都暴露出问题。12.2.2.2 实践方法这些方法可进一步分为三个方向a. 转换方法大多数转换型机器翻译观点认为源语文本的部分分析仅基于源语言本身译文的部分处理仅基于目标语言本身但大部分工作依赖于特定语言对的对比信息。这一观点的依据是翻译本质上是一项对比语言学实践。由欧盟所有成员国的研究团队参与开发的大型 Eurotra 系统就是一个转换型系统。日本人普遍认为转换方法最有可能早日取得成功。b. 中间语言方法该方法被认为有助于提高系统的稳健性和整体经济性 —— 因为对于一组语言中的所有语言对翻译原则上只需每种语言与 “中间语言” 进行双向翻译即可。若有 n 种语言只需开发 n 个组件实现每种语言与中间语言的互译。c. 基于知识的方法转换系统在很大程度上具有中间语言系统的特征但并未像中间语言方法那样致力于语言普遍性。此类语义转换系统正吸引着大量关注在某种程度上它可被视为以语言学为基础的方法与所谓 “基于知识的系统” 之间的折中方案。翻译在很大程度上依赖于非特定语言的信息和能力 —— 我们之所以能顺利翻译是因为我们默认译者具备常识和日常世界知识。近年来出现的主要新研究方向是利用已有译文作为生成新译文的主要信息来源。基于实例的机器翻译系统设计上较为传统能够调用一组已有译文。IBM 倡导的一种更为激进的方法是系统使用的几乎所有知识都自动从海量已有译文的统计属性中获取。12.2.3 机器翻译与翻译工具的评估必须承认所有实际生成的机器翻译译文都存在缺陷。我们能发现一些人类译者绝不会犯的错误例如代词错误、介词错误、句法混乱、术语选择不当、单复数误用、时态错误等。有时这类错误难以避免因为不同语言具有不同特性法语中的代词必须体现数和性日语中代词常被省略俄语中没有冠词汉语中名词不分单复数、动词不分现在时和过去时德语的语序灵活性可能导致主语和宾语难以区分。如果系统仅作为研究原型译文质量欠佳对公众影响不大。但对于商业系统而言译文质量低下会影响整个机器翻译行业的发展。这就是近年来评估方法成为热议话题的原因例如阿诺德等人1993法尔克达尔1994美国机器翻译协会1992。机器翻译评估通常有两种范式1玻璃箱评估基于翻译系统的内部机制衡量系统质量2黑箱评估仅基于系统的输出结果衡量质量奥利夫等人2011。机器翻译评估可采用自动评估、半自动评估人机结合或人工评判的方式。与自然语言处理的其他领域一样机器翻译评估主要分为三类1充分性评估确定机器翻译系统在特定操作环境中的适用性。充分性评估通常由系统的潜在用户和 / 或购买者个人、公司或机构执行2诊断性评估识别系统的局限性、错误和缺陷以便由研究团队或开发者进行修正或改进。诊断性评估主要由研究者和开发者负责3性能评估评估系统开发的不同阶段或不同技术实现方案的效果。性能评估可由研究者 / 开发者或潜在用户执行。12.2.4 机器翻译与互联网近年来出现了许多专门用于网页和电子邮件翻译的系统。显然迫切需要开发专门的翻译系统以处理互联网上常见的口语化通常格式不规范、拼写错误较多信息。显然我们不能依赖那些传统的基于语言学规则的方法。尽管利用互联网上海量数据的基于语料库的方法是合适的但针对此类系统的研究仍相对较少。人们普遍认为互联网正产生更为深远的影响必将改变机器翻译的未来前景。其中一个预测是独立个人电脑将被网络计算机取代 —— 网络计算机可根据需要从互联网下载系统和程序。在这种情况下一次性购买单独包装的机器翻译软件、词典等产品的模式将被远程存储的机器翻译程序、词典、语法、翻译档案、专业术语表等替代用户可能需要按使用量付费。互联网的另一深远影响将涉及软件本身的性质。互联网服务的用户寻求的是信息无论这些信息是以何种语言编写或存储的。用户需要将信息检索、提取和摘要系统与翻译系统整合起来。因此未来可能会出现更少的 “纯” 机器翻译系统而更多的是基于计算机的工具和应用程序 —— 自动翻译仅作为其中一个组件。12.2.5 语音翻译新世纪最受期待的发展无疑是口语翻译即语音翻译。英国电信公司和日本大阪附近的ATR 实验室率先开展了相关研究后者是一个由政府和企业资助的大型项目。20 世纪 80 年代末 90 年代初研究项目启动时人们就知道实际应用尚不成熟但当时认为一旦在小型研究系统上成功验证了基本原理和方法只需投入资金和工程力量就能开发出大型实用系统。1992 年笔者访问加利福尼亚州圣巴巴拉的松下实验室时曾被要求对着麦克风朗读几个英语句子我的朗读内容很快被翻译成书面英语和日语显示在屏幕上。当时研究者告诉我这不是软件问题而是硬件性能问题 —— 随着计算机性能的不断提升它能够翻译的句子和文本将会越来越多。他的预测已部分成为现实2001 年我最近一次访美时注意到一些新型电视机配备了内置装置能够几乎同步地将英语口语翻译成书面字幕显示在屏幕上。除了机器翻译本身的特殊困难外语音翻译还为自动翻译带来了另一个问题 ——语音识别。尽管在过去几十年里语音识别技术取得了显著进步但它仍远未成为一个已解决的问题。语音识别过程可分为三个部分特征计算、声学建模和语言建模。据一些学者奥利夫等人2011称目前所有的语音识别器都使用所谓的隐马尔可夫模型HMMs作为基本的语音识别方法。但由于不同语言之间存在差异构建一个适用于所有自然语言的通用模型并非易事。12.2.6 机器翻译与人工翻译自计算机翻译自然语言的想法提出以来译者对这一领域的态度各不相同。第一种态度早在 1951 年就由 J.E. 霍尔姆斯特伦在为联合国教科文组织撰写的一份报告中表达出来。他认为机器翻译系统生成的译文“文体糟糕透顶充满了令人啼笑皆非的错误和不当表达比任何人类译者的最差水平都要糟糕”。原因是“翻译是一门艺术每一步都涉及在无法编码的多种选择中做出个人判断它不仅仅是对等符号集的直接替换更是基于译者全部先前教育背景和个人特质的价值选择”霍尔姆斯特伦1951。第二种态度一直持续到今天基于计算机的翻译系统并非人类译者的竞争对手而是帮助他们提高技术翻译效率的工具或为翻译人类译者从未尝试过的材料提供手段。在此背景下我们必须区分三类系统1机器翻译MT旨在承担整个翻译过程但其输出结果必须经过修订2译者计算机辅助工具翻译工具为专业译者提供支持3面向 “偶尔使用的非专业译者” 的翻译系统仅生成粗略译文以辅助理解。直到 20 世纪 80 年代末人们才认识到这些差异哈钦斯2001。进入新世纪之初机器翻译和人工翻译能够且将和谐共存的趋势已十分明显。当译文需要达到 “出版级” 质量时人工翻译和机器翻译都有各自的作用。事实证明对于大规模和 / 或快速翻译枯燥的技术文档、高度重复的软件本地化手册以及其他许多场景机器翻译具有成本效益 —— 机器翻译加上必要的人工准备和修订的成本或使用计算机化翻译工具的成本显著低于不借助计算机辅助的传统人工翻译成本。例如一名人类译者一天大约能翻译 2000 至 3000 个单词而 Systran 的机器翻译系统每分钟可翻译 3700 个单词人工翻译的成本为每个单词 20 美分至 60 美分不等而高端机器翻译解决方案的成本在使用第一年就能收回Systran2001。相比之下对于非重复性、语言复杂度高的文本如文学和法律文本甚至对于特定高度专业技术领域的一次性文本人类译者目前并将继续保持不可替代的地位。对于译文质量要求不高的文本机器翻译通常是理想的解决方案。例如为仅需了解核心内容和信息、不关心所有内容是否都可理解、且不会因文体生硬或语法错误而却步的读者生成科技文献的 “粗略” 译文机器翻译将日益成为唯一的选择。在一对一的信息交流中人类译者可能始终有其角色例如商务信函的翻译尤其是内容敏感或具有法律约束力的信函。但对于私人信件的翻译机器翻译系统的使用可能会越来越广泛而对于电子邮件翻译以及从网页和计算机信息服务中提取信息机器翻译是唯一可行的解决方案。至于口语翻译人类译者肯定仍有市场。但机器翻译系统正在开拓人类翻译从未涉足的新领域为用外语写作的作者生成草稿帮助他们创作原创文本电视字幕的实时在线翻译数据库信息的翻译 —— 毫无疑问随着全球通信网络的扩展和机器翻译的实际实用性被更广泛的公众所熟悉未来还会出现更多此类新应用。12.3 语料库语言学在上一节中我们了解到机器翻译的方法之一是基于实例的系统即 “能够调用一组已有译文” 的系统。这就需要一个包含大量已有译文的语料库。尽管美国结构主义语言学家都采用基于语料库的方法肯尼迪1998但得益于计算机技术的发展“语料库” 与 “语言学”的结合才成为可能。在本节中我们将主要讨论计算机语料库。12.3.1 定义关于 “语料库” 和 “语料库语言学”存在多种定义。以下是一个代表语言学家观点的定义语料库复数形式为 corpora是语言数据的集合既可以是书面文本的汇编也可以是录音的转写文本。语料库的主要目的是验证关于语言的假设—— 例如确定特定语音、单词或句法结构的使用情况如何变化。语料库语言学研究在语言研究中使用语料库的原则和实践。计算机语料库是大量机器可读文本的集合D. 克里斯特尔199285。与仅仅是文本集合不同现代语言学中的语料库更准确地说是一个有限规模的机器可读文本集合通过抽样方式最大程度地代表所研究的语言变体麦克纳利 威尔逊200132。麦克纳利和威尔逊的定义明确了现代语料库的特征。我们需要区分电子档案和现代意义上的语料库现代语料库是大量机器可读文本的集合可通过计算机工具进行处理。语料库的存储方式使其能够进行非线性、定量和定性研究。语料库对语言研究的重要性与实证数据的重要性密不可分。实证数据使语言学家能够做出客观陈述而非主观陈述或基于个人内化的语言认知的陈述。基于这一点我们会发现语料库在许多与语言相关的研究领域中发挥着重要作用例如语音研究、词汇研究、语法、语义学、语用学、语篇分析、社会语言学、文体学、历史语言学、方言学、变异研究、心理语言学、社会心理学、文化研究等。鉴于基于语料库的语言学研究数量庞大胡和江2001列举了部分代表性示例。12.3.2 核心术语12.3.2.1 词形、类符、形符、一次词以下段落来自一部中文小说的英文译本“The rickshaw pullers of Beiping fall into many different categories. There are strong, fleet-footed young men who rent smart rickshaws and work round the dock, starting work or knocking off whenever they please. They pull their rickshaws to a rickshaw-stand or the gate of some big house and wait for fares who want a fast runner. With luck, a single trip can net one or two silver dollars; but it may happen too that they spend the whole day idle, not even recouping their rickshaw rent. Still, they take this all in their stride.”北平的车夫分为许多不同的类别。有一些强壮、脚步敏捷的年轻人他们租着漂亮的人力车在码头附近干活想开工就开工想收工就收工。他们把人力车拉到人力车停靠点或一些大房子的门口等待想要快速赶路的乘客。运气好的话一次行程就能赚到一两块银元但也有可能他们一整天都无所事事甚至连人力车的租金都赚不回来。尽管如此他们对此都泰然处之。如果有人问 “这段落中有多少个‘词’”我们通常会说有 94 个词。也就是说有 94 个被空格或标点符号分隔的字母序列 —— 这也是文字处理程序的字数统计功能给出的数字。换句话说这段落中有 94 个形符tokens。然而其中许多词出现了不止一次the12 次there3 次they4 次rickshaw5 次如果每个重复的词只计算一次即只统计不同的词那么总数为 65 个 —— 在语料库术语中这些被称为类符types。只出现一次的词被称为一次词hapax legomena 或 hapaxes。12.3.2.2 词目、词形在处理语料库中的 “词” 时还需要考虑另一个因素。在上面引用的段落中我们可以认为 rickshaw 和 rickshaws 在某种意义上是“同一个词”因为后者只是前者的复数形式。用专业术语来说rickshaw 和 rickshaws 是属于同一个词目lemmarickshaw的两个词形word-forms。同样am、is、are、was、been、were 和 being 是属于同一个词目BE的不同词形。12.3.2.3 标注、句法分析、注释这三个术语均指为语料库添加更多信息。语料库有两种形式未标注语料库处于原始的纯文本状态和标注语料库添加了各种类型的语言信息。标注tag通常指为语料库中的每个词添加一个代码主要用于表示词性。例如“Claire collects shoes.”克莱尔收集鞋子。被标注为 “Claire_NP1 collects_VVZ shoes_NN2.”Claire - 专有名词单数collects - 动词第三人称单数shoes - 普通名词复数。语料库句法分析parse是将文本分解为成分如分句和词组的过程。注释annotate是一个更宽泛的术语涵盖了为语料库添加各种语言信息的所有操作包括词性标注、句法结构标注、语义标注、语用标注等。12.3.3 发展、分类与分类体系在语言研究中使用文本集合并非新想法。中世纪时学者们就开始编制特定文本中所有单词的列表及其语境。其他学者则统计单个文本或文本集合中的词频并生成最常用词列表。在此我们将重点关注一些核心语料库回顾语料库语言学当代发展的重要阶段埃塞克斯大学1998。12.3.3.1 第一代语料库第一个现代、可电子读取的语料库是美国当代英语布朗语料库Brown Corpus of Standard American English。该语料库包含 1961 年出版的 100 万个单词的美国英语文本。为使该语料库成为良好的标准参考文本从 15 个不同的文本类别中按不同比例抽样选取包括新闻报道、社论、评论、技能与爱好、宗教、学术 / 科学、小说含多个子类别等。布朗语料库的结构被其他语料库编制者效仿例如英国英语的 LOB 语料库兰卡斯特 - 奥斯陆 - 卑尔根语料库和印度英语的科尔哈普尔语料库Kolhapur Corpus。这两个语料库均包含 100 万个单词的书面语500 篇文本每篇 2000 个单词抽样类别与布朗语料库相同。另一个重要的 “小型” 语料库是伦敦 - 伦德语料库London Lund Corpus of Spoken British EnglishLLC。它是第一个可计算机读取的口语语料库包含 100 篇口语文本每篇约 5000 个单词。文本被分为不同类别如自发对话、自发评论、自发演讲和准备好的演讲等。文本采用正字法转写并带有详细的韵律标记。12.3.3.2 大型语料库时代然而很快人们就发现对于某些任务需要更大规模的文本集合。1980 年柯林斯 - 伯明翰大学国际语言数据库COBUILD开始在计算机上收集语料库用于词典编纂和语言研究。《柯林斯 COBUILD 英语词典》1987的编纂者每天可访问约 2000 万个单词的语料库。随着新文本的不断添加该语料库于 1991 年正式命名为英语语料库银行Bank of EnglishBOE。英语语料库银行的规模持续扩大1996 年最新版本已包含约 3.2 亿个单词新的材料仍在不断添加以使其 “反映当今英语的主流用法”。1995 年另一个大型语料库 —— 英国国家语料库British National CorpusBNC发布。该语料库包含约 1 亿个单词与英语语料库银行一样既包含书面语材料也包含口语材料。但不同的是英国国家语料库是有限的 —— 完成后不再添加新文本。其文本是根据精心预先定义的选择标准选取的为不同文本类型设定了纳入数量目标。文本经过编码 “标记”提供了关于文本、作者、说话者等的信息。12.3.3.3 现代历时语料库历时语料库又称监控语料库。语言学家认为语言是一种不断变化的现象而语言变化原则上可以在语料库数据中观察到。这两点被视为现代历时语料库发展的动机。早在 1982 年辛克莱就提出了历时语料库或 “监控” 语料库的概念认为其在理论上是可行的约翰松1982。但直到 1990 年第一个 “动态” 语料库才在伯明翰大学正式建立包含可追溯至 1988 年的《泰晤士报》文本。1994 年利物浦大学的 ACRONYM 项目同义词自动搭配检索项目建立了第二个此类 “动态” 语料库此次使用的是《独立报》的新闻文本。目前支持历时研究的语料库主要有三类分别代表了不同的历时研究方法。第一代语料库布朗语料库和 LOB 语料库已扩展为 Frown 语料库和 FLOB 语料库它们是第一类历时语料库 —— 由小型、共时但平行的 “标准” 语料库布朗语料库、Frown 语料库、LOB 语料库和 FLOB 语料库组成第二类是按时间顺序排列的英语文本样本语料库可追溯至 20 世纪即阿彻语料库Archer Corpus由亚利桑那大学、南加州大学、乌普萨拉大学和弗赖堡大学联合构建第三类是连续的、按时间顺序排列的数据流例如《泰晤士报》的文本以及最近的《独立报》和《卫报》的新闻文本现存储于伯明翰的中央英格兰大学。12.3.3.4 专用语料库专用语料库可进一步分为以下几类a. 历史语料库历史语言学家看到了计算机化历史语料库的潜在价值。赫尔辛基大学编制了一个包含不同时期英语文本的历时语料库 —— 赫尔辛基英语文本语料库Helsinki Corpus of English Texts涵盖古英语、中古英语和早期现代英语时期总规模为 150 万个单词。另一个历史语料库是最近发布的兰彼得早期现代英语小册子语料库Lampeter Corpus of Early Modern English Tracts该语料库包含 “1640 年至 1740 年间出版的小册子”涉及六个不同领域。b. 特定用途语料库上述语料库均为通用文本集合用于多个领域的研究。其中许多语料库被用于口语系统的研究例如空中交通管制语料库Air Traffic Control Corpus旨在 “用于与空中交通管制类似领域的稳健语音识别”以及 TRAINS 口语对话语料库TRAINS Spoken Dialogue Corpus作为一个项目的一部分收集旨在创建 “一个具备对话能力的规划助手”铁路货运系统。c. 国际 / 多语言语料库其他语言的语料库数量也在不断增加其中一些是单语语料库单一语言的文本集合例如波斯尼亚语文本奥斯论语料库Oslo Corpus of Bosnian Texts和当代葡萄牙语语料库Contemporary Portuguese Corpus。也存在许多多语言语料库其中许多是 “平行语料库”—— 包含同一文本的多种语言版本。这些语料库常用于机器翻译领域例如英语 - 挪威语平行语料库English Norwegian Parallel Corpus和英语 - 土耳其语对齐平行语料库English Turkish Aligned Parallel Corpora。语言数据联盟LDC收集了多种语言的电话对话语料库CALLFRIEND 和 CALLHOME。平行语料库、多语言语料库和可比语料库被视为翻译语料库的三种类型。据悉翻译英语语料库TEC是第一个翻译语料库由曼彻斯特大学翻译与跨文化研究中心CTIS设计和开发总规模为 5000 万个单词包含四个文本类别报纸1.34%、传记14.1%、小说81.5%和杂志3.09%。鲍尔1997指出语料库的分类体系可分为以下几组a. 按媒介印刷文本、电子文本、数字化语音、视频如美国手语、混合媒介b. 按设计方法平衡语料库、金字塔形语料库、机会语料库c. 按语言变量单语语料库与多语语料库原创文本语料库与翻译文本语料库不匹配匹配母语者语料库与学习者语料库如学习者作文语料库d. 按语言状态共时语料库与历时语料库如布朗语料库与赫尔辛基历时语料库e. 按是否标注未标注语料库与标注语料库。12.3.4 语料库的构建学术界对于语料库设计应遵循的流程尚未达成共识平衡法、机会法、统计精密法和完全朴素法等各种方法都在争取认可。无论如何以下问题值得我们关注目标用户是谁例如个人研究使用vs.通用资源语料库的目的是什么例如作为词典编写的基础生成词频列表研究某种语言现象研究特定作者或特定时期的语言训练自然语言处理系统作为非母语者的教学资源研究语言习得……需要多少数据 / 实际可行的数据集规模是多少应考虑哪些变量采用抽样法还是穷尽法例如完整的古英语语料库可在线获取完整的早期中古英语语料库是可行的而完整的 20 世纪英国英语或美国英语语料库则不可行。完全纯文本形式例如古腾堡计划的文本通过扫描生成无文本相关信息。标记格式属性例如分页符、段落、字体大小、斜体等。标注识别信息如版本日期、作者、体裁、语域等并标注词性、句法结构、语篇信息等。未标注语料库指处于原始纯文本状态的语料库。显然标注后的语料库实用性会增强—— 它不再是语言信息隐含的文本集合而可被视为语言信息的存储库。通过具体的标注过程隐含信息被明确化。例如形式 “gives” 包含隐含的词性信息 “动词第三人称单数现在时”但在正常阅读中我们只能通过已有的英语语法知识来获取这一信息。然而在标注语料库中“gives” 可能被标注为 “gives-VVZ”其中代码 VVZ 表示它是实义动词VV的第三人称单数现在时Z形式。此类标注使检索和分析语料库中包含的语言信息变得更快、更容易。利奇1993提出了文本语料库标注应遵循的 7 条准则1应能够从标注语料库中移除标注恢复为原始语料库。2应能够从文本中单独提取标注信息。3标注方案应基于最终用户可获取的指南。4应明确标注的执行方式和执行者。5应让最终用户知晓语料库标注并非绝对无误而只是一个潜在有用的工具。6标注方案应尽可能基于广泛认可且与理论无关的原则。7没有任何标注方案天生就有权被视为标准。需要指出的是利奇的部分准则并不容易遵守。以准则 1 为例有时这是一个简单的过程 —— 例如移除下划线后的每个字符如 “Claire-NP1 collects-VVZ shoes-NP2” 可变为 “Claire collects shoes”。然而伦敦 - 伦德语料库的韵律标注插入在单词内部例如 “g/oing” 表示 “going” 一词第一个音节的音调上升这意味着无法轻易还原原始单词。12.3.5 语料库与索引索引concordance最简单的形式是文本中单词的字母顺序列表同时列出每个单词出现的语境。如今最常见的索引形式是语境关键词索引KWIC其中每个单词居中显示在固定长度的字段中例如 80 个字符。以下示例由 Conc 1.70Macintosh 版本生成源自狄更斯《双城记》第一卷的纯 ASCII 文本版本。请注意行号是由 Conc 计算得出的鲍尔1997。表 12.1 《双城记》第一卷中 “poor” 一词的语境关键词索引行号左语境关键词右语境1320taste it is that suchpoorcattle always have in their mouths948of sparing thepoorchild the inheritance of any part of778small property of mypoorfather, whom I never saw-so long1870desolate, while yourpoorheart pined away, weep for it947Miss, if thepoorlady had suffered so intensely1884the love of mypoormother hid his torture from me1615stockings, and all hispoortatters of clothes, had, in a long1577faded away into apoorweak stain. So sunken and1001on your way to thepoorwronged gentleman, and, with a1036detachment from thepooryoung lady, by laying a brawny hand构建一个基础的索引工具是一项简单的编程任务只需将单词索引到对应的行按字母顺序排序单词并在固定语境长度中显示每个单词。然而大多数通用索引工具都具备许多额外功能包括生成完整或部分索引、多种排序方式、搭配搜索以及生成基本文本统计数据等。索引通常可以按字母顺序升序或降序排序还可以选择排序范围使人类更容易观察到语言模式。当计算机经过训练能够识别字符、词形和句子后它可以生成不同类型的统计数据。这在比较文本或搜索具有特定特征的文本时非常有用辛克莱1991。索引不仅可以验证假设还能揭示语言实际使用与我们直觉之间的差异。借助索引我们发现搭配的概念并不像看起来那么简单。当前的词典学研究表明对于许多常用词其最常见的含义并非我们首先想到且在大多数词典中占据重要位置的含义。一些新的证据正从根本上挑战我们现有的语言描述。此类证据此前从未出现过对其的吸收将有助于语言学作为一门学科的成熟辛克莱1991。12.4 信息检索12.4.1 范围界定在本节中我们仅关注自动信息检索 ——“自动” 相对于 “手动”“信息” 相对于 “数据” 或 “事实”。兰开斯特1968给出了一个简洁的定义“信息检索系统不会就用户查询的主题向用户提供信息即改变用户的知识。它仅告知用户与查询相关的文档是否存在以及所在位置。”信息检索IR不同于数据检索DR、文档检索和文本检索尽管这些术语的使用存在重叠。信息检索是一门交叉学科基于计算机科学、数学、图书馆学、信息科学、信息架构、认知心理学、语言学和统计学。自动信息检索系统用于减少所谓的 “信息过载”。信息检索指从大型集合通常存储在计算机上中查找满足信息需求的非结构化材料通常是文本。如今它不仅是专业人士的研究领域也是数亿使用网络搜索引擎或搜索电子邮件的人的日常活动。信息检索正成为信息获取的主要形式逐渐取代传统的数据库式搜索。随着高速计算机可用于非数值工作许多人认为计算机能够 “阅读” 整个文档集合提取相关文档。但我们发现许多问题仍未解决。首先自动表征软件试图复制人类 “阅读” 过程是一个非常棘手的问题 ——“阅读” 涉及从文本中提取句法和语义信息并利用这些信息判断每个文档是否与特定查询相关。难点不仅在于如何提取信息还在于如何利用这些信息判断相关性。其次自动检索策略的目的是检索所有相关文档同时尽可能少地检索不相关文档。12.4.2 信息检索系统信息检索系统可根据其运行规模进行区分通常分为三个主要规模网络搜索、个人信息检索以及企业、机构和特定领域搜索克里斯托弗・D 等人2009。一个典型的信息检索系统可以用以下图表说明该图表显示了三个组件输入、处理器和输出。反馈→查询→输入→处理器→输出→文档首先看输入INPUT核心问题是获取每个文档和查询的表示形式使其适合计算机使用。需要指出的是大多数基于计算机的检索系统仅存储文档或查询的表示形式 —— 这意味着文档文本在经过处理生成表示形式后原始文本就会丢失。文档表示形式可以是提取的被认为具有重要意义的单词列表。除了让计算机处理自然语言外另一种方法是使用人工语言所有查询和文档都可以在这种语言中形式化。当检索系统在线时用户可以根据样本检索结果在一次搜索会话中修改查询从而改进后续的检索运行。其次看处理器PROCESSOR检索系统中与检索过程相关的部分可能涉及以某种适当的方式组织信息如分类还会执行实际的检索功能 —— 即响应查询执行搜索策略。在图表中文档被放置在一个单独的框中以强调它们不仅是输入还可以在检索过程中使用因此其结构更准确地说是检索过程的一部分。最后看输出OUTPUT通常是一组引文或文档编号。在可运行的系统中流程到此结束。12.4.3 三个主要研究领域信息检索的主题可以有多种细分方式但三个主要研究领域构成了该学科的重要组成部分分别是内容分析、信息结构和评估。12.4.3.1 内容分析内容分析CONTENT ANALYSIS关注以适合计算机处理的形式描述文档内容。卢恩1957开创的方法具有代表性 —— 通过统计文档文本中单词的出现频率确定哪些单词足够重要能够在计算机中表示或表征文档。因此为每个文档准备了一份所谓的关键词或术语列表。此外这些单词在文本正文中的出现频率也可用于表示重要程度。无论是可运行的还是实验性的信息检索系统都是基于关键词的。一些系统在关键词的使用上已经相当精密例如利用分布信息衡量关键词之间或文档的关键词描述之间的关系强度。当定义并利用了单词之间的一些语义关系时我们在关键词使用上的创造力似乎达到了极限。12.4.3.2 信息结构信息结构INFORMATION STRUCTURE关注利用文档之间的关系提高检索策略的效率和效果。信息结构的发展相对较新主要原因是长期以来没有人意识到如果不对大型文档集施加某种逻辑结构计算机无法提供准确的检索时间。12.4.3.3 评估要正确看待评估EVALUATION问题我们需要回答三个问题1为什么评估2评估什么3如何评估这些问题的答案几乎涵盖了评估的整个领域。第一个问题的答案主要涉及社会和经济层面。社会层面是衡量信息检索系统带来的收益或劣势经济层面是说明使用这些系统的成本以及相关的问题 ——“是否值得”第二个问题归根结底是我们可以测量哪些能够反映系统满足用户需求能力的指标。克莱夫登1966列出了六个主要的可测量指标集合的覆盖范围系统包含相关内容的程度时间延迟从发出搜索请求到获得答案的平均间隔输出的呈现形式用户为获取搜索请求答案所付出的努力系统的召回率响应搜索请求实际检索到的相关材料的比例系统的精确率检索到的材料中实际相关的比例。据称前四个指标易于评估。而“召回率” 和 “精确率” 旨在衡量现在所说的检索系统的有效性—— 即系统检索相关文档同时排除不相关文档的能力。人们认为系统的有效性越高就越能满足用户需求萨尔 ton1989248。最后一个问题的答案涉及大量技术细节。值得注意的是衡量检索有效性的技术在很大程度上受到所采用的特定检索策略及其输出形式的影响。例如当输出是文档的排序结果时排名位置等明显参数可立即用于控制。以排名位置为截断点可以计算一系列精确率 - 召回率值每个截断点对应一个值。结果可以用一组点连接成平滑曲线的形式总结曲线的走向可直接解释为有效性随截断点值的变化。遗憾的是这种评估形式无法回答一些问题例如多少个查询的表现优于平均水平多少个查询的表现低于平均水平12.5 未来展望从以上讨论中我们可以发现这些领域背后存在几个共同目标这些目标决定了计算语言学未来的研究发展方向乌斯考雷特2000。1用户友好的软件能够听和说自然语言接口使用户能够用英语、法语、德语、汉语或任何其他人类语言与计算机交流。此类接口的应用包括数据库查询、文本信息检索、所谓的专家系统和机器人控制。口语识别技术的进一步突破将提高多种自然语言系统的可用性。我们相信使用口语与计算机交流将对工作环境产生巨大影响为信息技术开辟全新的应用领域。然而口语需要与其他交流模式如用鼠标或手指指向相结合。如果这种多模态交流最终能嵌入有效的通用合作模型中我们将在机器中找到一个友好的合作伙伴。2计算机帮助人们相互交流数千年来我们一直面临着不同母语者之间的交流问题。难怪人类语言之间的完全自动翻译仍将是应用计算语言学的目标之一。机器翻译研究者已经意识到要实现这些目标仍有很长的路要走。3语言构成网络的基础互联网 / 万维网的快速发展和信息社会的出现为语言技术带来了令人兴奋的新挑战。尽管新媒体融合了文本、图形、声音和视频但多媒体信息的整个世界只能通过语言进行结构化、索引和导航。为了浏览、导航、筛选和处理网络上的信息我们需要能够获取文档内容的软件。内容管理语言技术是将丰富的数字信息转化为集体知识的必要前提。网络日益增长的多语言性为我们的学科带来了额外的挑战。只有借助多语言索引和导航工具才能驾驭全球网络。跨语言信息和知识管理系统将为电子商务、教育和国际合作克服语言障碍。4新兴领域将以多样性为特征各行各业的人们都将从这一新兴领域中受益。因此这不仅需要计算机科学家和语言学家的努力还需要教育家、翻译家、心理学家、社会学家、文学评论家、图书馆员等的参与。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询