当前位置:首页 >> 管理学 >>

自然语言的应用研究


(朱丽(上海空军政治学院信息管理系) ) 摘要作为情报语言学研究对象之一的自然语言,在情报检索中的应用正日趋广泛。本文 将其与规范语言进行了比较,重点讨论了其应用中的三个问题,自然语言标引、标引检索用 词表及检索语言整体化趋势,并就其未来发展作了阐述。 主题词自然语言规范语言情报检索 *** 自然语言与规范语言 自然语言()是相对于规范语言()而言的,其本质特征是不受控制。从情报检索的发 展历程来看,作为语言保障的规范语言是对自然语言实施控制而出现的;而情报检索的进一 步发展必使得曾被否定的自然语言重新得以肯定。 规范语言的产生 规范语言是适应情报检索需要而创制的一种人工语言,它在手工检索条件下产生,并得 到了充分发展及应用。 如历史最久远的分类语言,采用比较抽象的类号来表达概念,组织检索系统。它具有良 好的系统性,适于学科或专业出发的族性检索。同时,随着学科发展及用户需求的变化,分 类语言也由等级体系型日益向分面组配方向发展。 而规范语言的另一重要分支——主题语言,则以自然语言为基础,经过人为的形式控制 (词量、词形、词义及词间关系等) ,用来直接表达主题概念。年代由于计算机检索的迅速发 展,主题语言也在经历了元词语言的短暂应用后进入叙词语言的大普及阶段。作为吸取以往 所有规范语言优点的叙词语言,适应了标引、检索的多种要求,是在机检条件下效率较好的 一种规范语言。年代,在国外被称为“叙词表”时代,其应用达到了顶峰。 无论是哪种规范语言,为了达到简明专指地进行标引及全准便捷地实现 。 性的仍是自动标引(即上述的后两种形式)以及部分人工的机助标引。目前国内已实现的自 然语言标引方式有以下几种。 ①无标引,即全文单汉字标引 这是与全文检索技术相对应的一种典型的自然语言标引方式。它比较完全地实现了自动 化,且标引深度大,检索方便灵活,可以检到一些细节性、边缘性的信息。但由于以字为对 象进行处理,易产生虚假组配,检索噪声大而筛选负担重,同时检全率较低,扩、缩、改检 比较困难。 ②基于题名或文摘的抽词标引 这种方式应用较早,至今仍在汉语文献自动标引中占有较大比重。它一般需构造一个抽 词词典,然后根据各种算法用文献中的自然语言匹配词典(或相反) ,匹配或成功即成为标引 词。由于采用先组式标引,不像单汉字标引需对字的字间关系进行组配,因此检索速度快。 但它所能处理的自然语言受到抽词词典的构造、维护状况限制,且纯机械的抽词也无法完全 避免误差。 ③基于题名的增补关键词标引 关键词标引是适应科技文献数量剧增及快速简便的检索需要而产生的,早期主要基于题 名的情报性,直接抽取其中的自然语词(关键词)并加以轮排而成。然而题名在表达概念的 准确性、专指性、完备性方面存在差异,对非科技文献犹甚,因此出现了从文摘、正文甚至 著者等方面增补关键词的改进方法,这同时也增加了人工辅助的成分。 ①词串标引 词串标引是在对自然语言的理解基础上,由人将用自然语言书写的主题描述句标记成形 式化主句(或称词串) ,然后由机器自动完成相应的索引款目。国外年代末年代初词串标引发

展迅速,问世了一批进行词串标引的机编索引系统如、 、等。其中最著名的标引专指度高,轮 排准确,款目与自然语言贴近。汉语是对其职能号、使用规则进行修正调整后专用于汉语文 献的主题标引系统,与之配套的微机软件亦已研制成功。 自然语言标引与检索词表问题 自然语言检索的理想模式是标引、检索阶段均使用自然语言,且不使用任何控制手段。 然而这将造成检索策略构造困难、检全率的问题,同时也在不同程度上存在一些影响检准率 的因素。同时,由于计算机对自然语言的理解力以及汉语语词切分、识别尚存在相当距离, 纯自然语言自动标引与检索未获真正意义上的推广及使用。 这种状况使得自然语言也不得不研究吸取规范语言的某些控制手段或指导思想,以期在 保持自然语言的基本特征及固有优点下,最大限度地提高标引、检索效率。由此产生了各种 自然语言标引、检索词表(典) 。 ①后控制词表 以往的规范文语言词表是在文献或情报输入时就对索引词先行加以控制 (受控标引) , 因 此又称为前控词表。由于它的控制带有一定的粗泛性、滞后性,有时甚至失控,因而人们开 始尝试使用自然语言(自由词)进行检索,但这又造成了与受控语言的脱节。于是,在标引 时使用自然语言,在检索时实施一些不严格的控制,这就成了后控制词表的最初思路。 年美国匹兹堡大学法律中心采用一种同义词表来辅助其法律全文数据库的检索,它只是 简单地将相同含义的词编辑在一起,作为一种自动扩检工具而获得了相当好的效果。 国内在这方面的研究始于年代初,近年来则正逐渐形成理论和实践热点,出现了一批实 验或实用性后控制词表系统。如基于用户提问和用户建议的自学后控制系统,基于字面相似 原理的后控词表辅助编制系统,基于词对相似和词对共现原理的后控制词表系统以及基于分 面分析的机辅后控制词表系统等。 后控制词表通过罗列自然语词来提供一种转换或扩检系统,其控制效果由词表对自然语 言词间关系的显示形式、种类及质量所决定。它作为利用规范语言的原理和方法编制的自然 语言检索用控制词表较好地减轻了标引和检索负担,又同时保留了自然语言的优点,其应用 前景十分广阔。 ②入口词表 入口词表的编制是为解决标引和检索的入口词问题,最初的出发点是针对规范语言词表 而言的。它解决了词表词量有限的问题,并提供了规范语言与自然语言的接口。随着情报检 索的发展,入口词表的应用范围也有所拓展,可以认为标引词、检索词表达的变化以及查找 途径的增加都可称为入口思想的反映。 常见的入口词表有与规范语言词表同一的入口词表、专门编制的入口词表等,截词检索 从其功能而言也是一种无形的入口词表。另外,词表的轮排索引提供了从词素出发的多个入 口,也是入口词表的一种重要形式。 ③切分词典 这是针对汉语分词的困难,而构造的一种机内词典,在自动标引时作为切分抽词的辅助 工具。其中又可细分为主题词词典、关键词词典、部件词词典、非用字后辍表等。 上述切分词典均在自然语言自动标引中得到了应用,但仍存在一些需完善之处。如保证 词典抽词的准确性、便检性,切分规则的完备性以及提高处理隐含概念、缩略语等特殊语言 现象的能力。 自然语言与规范语言的结合使用——整体化趋势 自然语言与规范语言的构成特点决定了它们在检索效率方面具有互补性,如果能扬弃二 者的优缺点并将之有机结合,从理论而言无疑将取得最为合理优良的检索效率。 从实践方面来看, 国外自年代中期即已显示了将两种语言结合使用 (即所谓整体化语言)

的显著趋势。在使用整体化语言的混和型情报检索系统中不仅标引相对经济、明确,检索效 果也更为理想。根据我国计算机检索的仍以规范语言人工标引及传统情报检索为主的现状, 采用整体化语言应当是提高机检水平,逐步实现向自然语言过渡的一种现实而有效的途径。


相关文章:
HMM在自然语言处理领域中的应用研究_图文.pdf
HMM在自然语言处理领域中的应用研究 - 简要介绍资料的主要内容,以获得更多的关注... HMM在自然语言处理领域中的应用研究_IT/计算机_专业资料。简要介绍资料的主要内容...
自然语言的发展与研究.doc
自然语言的发展与研究 - 龙源期刊网 http://www.qikan.com.cn 自然语言的发展与研究 作者:贺召华 来源:《科教导刊 电子版》2016 年第 14 期 摘要 自然语...
国内自然语言处理技术研究与应用的状态.pdf
国内自然语言处理技术 研究应用的状态□ 郑婧 / 北京师范大学中文信息处理研究所 北京 100875 □ 孙卫 / 中国科学技术信息研究所 北京 100038 摘要:自然语言...
自然语言处理在信息检索中的应用研究_论文.pdf
自然语言处理在信息检索中的应用研究 - 2017 年第 11 期 信息与电脑 China Computer&Communication 计算机工程应用技术 自然语言处理在信息检索中的应用研...
深度学习在自然语言处理中的应用.doc
深度学习在自然语言处理中的应用 - 深度学习在自然语言处理中的应用 李晟群 摘要
自然语言处理领域的研究方向(世毕盟留学).doc
自然语言处理领域的研究方向(世毕盟留学) - 自然语言处理是一个传统的研究领域,近年来也出现了很多创新的领域,比如计算机视觉交叉的应用以及跟机器人科学地交叉。自然...
成果篇 自然语言处理与数据挖掘研究的两个应用成果.pdf
自然语言处理与数据挖掘研究的应用唐杰 李涓子 清华大学计算机系知识工程研究室清华大学计算机系知识工程研究研究方向为网络环境下的知识工程,研究室融合...
基于语用的自然语言处理研究与应用初探.pdf
基于语用的自然语言处理研究应用初探 - 首先分析了语用信息的必要性和重要性,认为只有融入语用研究的自然语言处理技术才能显示\以人为本\和智能化的特色,只有语...
基于自然语言的检索方法在图案数据库中的应用研究.pdf
基于自然语言的检索方法在图案数据库中的应用研究_电子/电路_工程科技_专业资料。基于自然语言的检索方法已经应用到许多数据库系统中.根据图案数据库的特点,提出了一...
自然语言检索中的中文分词技术研究进展及应用_何莘_图文.pdf
自然语言检索中的中文分词技术研究进展及应用_何莘 - 第26卷第 5期 2008 年 5月 情 报科 学 Vol. 26, No. 5 May, 2008 自然语言检索中的中文分词技...
基于语用的自然语言处理研究与应用初探_论文.pdf
基于语用的自然语言处理研究应用初探 - 首先分析了语用信息的必要性和重要性,认为只有融入语用研究的自然语言处理技术才能显示“以人为本”和智能化的特色,只有...
自然语言处理两千字.doc
这种结合既丰富了自然语言处理的技术手段, 同时也拓宽了自然语言处理的社会应用 面。 ? 快速发展期(1957-1970) 自然语言处理在这一时期很快融入了人工智能的研究...
自然语言处理在信息检索中的应用综述_论文.pdf
自然语言处理在信息检索中的应用综述 - 在信息检索发展的过程中,研究者们不断尝试着将自然语言处理应用到检索里,希望能够为检索效果提高带来帮助。然而这些尝试的...
电子病历中应用自然语言生成结构化数据的研究 (2).doc
电子病历中应用自然语言生成结构化数据的研究 电子病历中应用自然语言生成结构化数据的研究(1) 电子病历中应用自然 语言生成结构化数据的研究 王巍 (武汉市第一医院...
深度学习在自然语言处理的应用v0.76_图文.ppt
深度学习在自然语言处理的应用v0.76 - 深度学习在自然语言处理的应用 张俊林
自然语言空间关系及其在GIS中的应用研究_论文.pdf
自然语言空间关系及其在GIS中的应用研究 - 智能GIS的最终目标是实现用户与GIS的自然语言交互。如何从自然语言中自动抽取空间信息,消除GIS中结构化空间信息与自然语言...
自然语言处理在信息检索中的应用研究_论文.pdf
自然语言处理在信息检索中的应用研究 - 在网络信息检索发展的过程中,研究者们不断尝试着将自然语言处理应用到网络信息检索里,希望能为检索效果提高带来帮助。本文...
自然语言处理在教务管理中的应用研究_论文.pdf
自然语言处理在教务管理中的应用研究 - 自然语言处理是人工智能领域的一个热点研究领域。它包括自然语言理解和自然语言生成。文章介绍了自然语言处理的定义、发展概况...
信息抽取在自然语言查询接口中的应用与研究.pdf
信息抽取在自然语言查询接口中的应用研究 - 提出将信息抽取这种技术应用到汉语自然语言的处理中来,描述信息抽取会给自然语言查询接口带来的影响,并着重讨论信息抽取...
自然语言检索中的中文分词技术研究进展及应用_图文.pdf
自然语言检索中的中文分词技术研究进展及应用 - 第26卷第5期 2008 年 5月 情 报科学 Vol. 26 ,No. 5 May ,2008 自然语言检索中的中文分词技术...
更多相关标签: