当前位置:首页 >> 管理学 >>

自然语言的应用研究


(朱丽(上海空军政治学院信息管理系) ) 摘要作为情报语言学研究对象之一的自然语言,在情报检索中的应用正日趋广泛。本文 将其与规范语言进行了比较,重点讨论了其应用中的三个问题,自然语言标引、标引检索用 词表及检索语言整体化趋势,并就其未来发展作了阐述。 主题词自然语言规范语言情报检索 *** 自然语言与规范语言 自然语言()是相对于规范语言()而言的,其本质特征是不受控制。从情报检索的发 展历程来看,作为语言保障的规范语言是对自然语言实施控制而出现的;而情报检索的进一 步发展必使得曾被否定的自然语言重新得以肯定。 规范语言的产生 规范语言是适应情报检索需要而创制的一种人工语言,它在手工检索条件下产生,并得 到了充分发展及应用。 如历史最久远的分类语言,采用比较抽象的类号来表达概念,组织检索系统。它具有良 好的系统性,适于学科或专业出发的族性检索。同时,随着学科发展及用户需求的变化,分 类语言也由等级体系型日益向分面组配方向发展。 而规范语言的另一重要分支——主题语言,则以自然语言为基础,经过人为的形式控制 (词量、词形、词义及词间关系等) ,用来直接表达主题概念。年代由于计算机检索的迅速发 展,主题语言也在经历了元词语言的短暂应用后进入叙词语言的大普及阶段。作为吸取以往 所有规范语言优点的叙词语言,适应了标引、检索的多种要求,是在机检条件下效率较好的 一种规范语言。年代,在国外被称为“叙词表”时代,其应用达到了顶峰。 无论是哪种规范语言,为了达到简明专指地进行标引及全准便捷地实现 。 性的仍是自动标引(即上述的后两种形式)以及部分人工的机助标引。目前国内已实现的自 然语言标引方式有以下几种。 ①无标引,即全文单汉字标引 这是与全文检索技术相对应的一种典型的自然语言标引方式。它比较完全地实现了自动 化,且标引深度大,检索方便灵活,可以检到一些细节性、边缘性的信息。但由于以字为对 象进行处理,易产生虚假组配,检索噪声大而筛选负担重,同时检全率较低,扩、缩、改检 比较困难。 ②基于题名或文摘的抽词标引 这种方式应用较早,至今仍在汉语文献自动标引中占有较大比重。它一般需构造一个抽 词词典,然后根据各种算法用文献中的自然语言匹配词典(或相反) ,匹配或成功即成为标引 词。由于采用先组式标引,不像单汉字标引需对字的字间关系进行组配,因此检索速度快。 但它所能处理的自然语言受到抽词词典的构造、维护状况限制,且纯机械的抽词也无法完全 避免误差。 ③基于题名的增补关键词标引 关键词标引是适应科技文献数量剧增及快速简便的检索需要而产生的,早期主要基于题 名的情报性,直接抽取其中的自然语词(关键词)并加以轮排而成。然而题名在表达概念的 准确性、专指性、完备性方面存在差异,对非科技文献犹甚,因此出现了从文摘、正文甚至 著者等方面增补关键词的改进方法,这同时也增加了人工辅助的成分。 ①词串标引 词串标引是在对自然语言的理解基础上,由人将用自然语言书写的主题描述句标记成形 式化主句(或称词串) ,然后由机器自动完成相应的索引款目。国外年代末年代初词串标引发

展迅速,问世了一批进行词串标引的机编索引系统如、 、等。其中最著名的标引专指度高,轮 排准确,款目与自然语言贴近。汉语是对其职能号、使用规则进行修正调整后专用于汉语文 献的主题标引系统,与之配套的微机软件亦已研制成功。 自然语言标引与检索词表问题 自然语言检索的理想模式是标引、检索阶段均使用自然语言,且不使用任何控制手段。 然而这将造成检索策略构造困难、检全率的问题,同时也在不同程度上存在一些影响检准率 的因素。同时,由于计算机对自然语言的理解力以及汉语语词切分、识别尚存在相当距离, 纯自然语言自动标引与检索未获真正意义上的推广及使用。 这种状况使得自然语言也不得不研究吸取规范语言的某些控制手段或指导思想,以期在 保持自然语言的基本特征及固有优点下,最大限度地提高标引、检索效率。由此产生了各种 自然语言标引、检索词表(典) 。 ①后控制词表 以往的规范文语言词表是在文献或情报输入时就对索引词先行加以控制 (受控标引) , 因 此又称为前控词表。由于它的控制带有一定的粗泛性、滞后性,有时甚至失控,因而人们开 始尝试使用自然语言(自由词)进行检索,但这又造成了与受控语言的脱节。于是,在标引 时使用自然语言,在检索时实施一些不严格的控制,这就成了后控制词表的最初思路。 年美国匹兹堡大学法律中心采用一种同义词表来辅助其法律全文数据库的检索,它只是 简单地将相同含义的词编辑在一起,作为一种自动扩检工具而获得了相当好的效果。 国内在这方面的研究始于年代初,近年来则正逐渐形成理论和实践热点,出现了一批实 验或实用性后控制词表系统。如基于用户提问和用户建议的自学后控制系统,基于字面相似 原理的后控词表辅助编制系统,基于词对相似和词对共现原理的后控制词表系统以及基于分 面分析的机辅后控制词表系统等。 后控制词表通过罗列自然语词来提供一种转换或扩检系统,其控制效果由词表对自然语 言词间关系的显示形式、种类及质量所决定。它作为利用规范语言的原理和方法编制的自然 语言检索用控制词表较好地减轻了标引和检索负担,又同时保留了自然语言的优点,其应用 前景十分广阔。 ②入口词表 入口词表的编制是为解决标引和检索的入口词问题,最初的出发点是针对规范语言词表 而言的。它解决了词表词量有限的问题,并提供了规范语言与自然语言的接口。随着情报检 索的发展,入口词表的应用范围也有所拓展,可以认为标引词、检索词表达的变化以及查找 途径的增加都可称为入口思想的反映。 常见的入口词表有与规范语言词表同一的入口词表、专门编制的入口词表等,截词检索 从其功能而言也是一种无形的入口词表。另外,词表的轮排索引提供了从词素出发的多个入 口,也是入口词表的一种重要形式。 ③切分词典 这是针对汉语分词的困难,而构造的一种机内词典,在自动标引时作为切分抽词的辅助 工具。其中又可细分为主题词词典、关键词词典、部件词词典、非用字后辍表等。 上述切分词典均在自然语言自动标引中得到了应用,但仍存在一些需完善之处。如保证 词典抽词的准确性、便检性,切分规则的完备性以及提高处理隐含概念、缩略语等特殊语言 现象的能力。 自然语言与规范语言的结合使用——整体化趋势 自然语言与规范语言的构成特点决定了它们在检索效率方面具有互补性,如果能扬弃二 者的优缺点并将之有机结合,从理论而言无疑将取得最为合理优良的检索效率。 从实践方面来看, 国外自年代中期即已显示了将两种语言结合使用 (即所谓整体化语言)

的显著趋势。在使用整体化语言的混和型情报检索系统中不仅标引相对经济、明确,检索效 果也更为理想。根据我国计算机检索的仍以规范语言人工标引及传统情报检索为主的现状, 采用整体化语言应当是提高机检水平,逐步实现向自然语言过渡的一种现实而有效的途径。


相关文章:
人工智能的NLP:自然语言处理
自然语言是人类智慧的结晶, 自然语言处理是人工智能中最为困难的问题之一, 而对自 然语言处理的研究也是充满魅力和挑战的。 随着计算机和互联网的广泛应用, 计算机...
浅析自然语言信息处理的智能化应用
浅析自然语言信息处理的智能化应用_电脑基础知识_IT/计算机_专业资料。自然语言信息处理的智能化应用在当今社会越来越广,对自然语言信息处理技术的研究也在很多国家...
【项目总结】自然语言处理在现实生活中运用
【项目总结】自然语言处理在现实生活中运用 摘要:自然语言处理或者是文本挖掘以及数据挖掘,近来一直是研究的热点。很多 人相想数据挖掘,或者自然语言处理,就有一种...
深度学习在自然语言处理中的应用
深度学习在自然语言处理中的应用李晟群 摘要:近年来,深度学习在图像和语音处理领域已经取得显著进展,但是在同属人类认知范畴的自然语言处理任务中,研究还未取得重大...
浅谈自然语言处理
浅谈自然语言处理_计算机软件及应用_IT/计算机_专业资料。浅谈自然语言处理 浅谈自然语言处理摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关...
2017年自然语言处理NLP技术应用前景分析报告
2017 年自然语言处理 NLP 技 术应用前景分析报告 (此文档为 word 格式,可任意修改编辑! ) 2017 年 10 月 1 正文目录 一、NLP 技术研究不断突破,商业化落地...
浅议自然语言信息处理的智能化应用
计算机处理的基础, 采用的方式主要是通过对技术的本身进行 研究,对其运行的规律进行描述,主要运用的是数学的方法,便于计算机处理, 相关专家称其为对自然语言进行数学...
浅议自然语言信息处理的智能化应用
浅议自然语言信息处理的智能化应用 论文摘要:自然语言信息处理是人机交互的关键技术,已得到高速的发展。论文首先简单的 论述了该技术的起源以及发展,然后重点研究了该...
自然语言处理两千字
这种结合既丰富了自然语言处理的技术手段, 同时也拓宽了自然语言处理的社会应用 面。 ? 快速发展期(1957-1970) 自然语言处理在这一时期很快融入了人工智能的研究...
语言应用研究_图文
语言应用研究一.语言应用研究的意义●要全面认识语言,真正认识语言,必须结合语言...语言特征、演变、功能、分布规律以及 地名与自然和社会环境之间关系的一门应用...
更多相关标签: