当前位置:首页 >> 计算机软件及应用 >>

文本分类算法研究和数据挖掘


文本分类算法研究和数据挖掘 摘要:文本分类是文本数据挖掘领域的重要技术之一。从分类算法对 文本语义信息的利用程度这一角度出发, 将文本分类划分为基于词形 的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文 本数据的多样性及文本分类算法改进的可选方向进行了研究。 关键词:文本分类;机器学习;语义信息;数据挖掘 0 引言 文本分类是指在带有类别标签的文本集合中, 根据每个类别的文 本子集合的共同特点,找出一个分类模型,以便在后续过程中将未标 识文本映射到已有类别的过程。文本分类是一种文本处理手段,能较 好地解决大量文档信息归类的问题进而应用到很多场景中, 如基于受 控词典的文档自动索引、文档过滤、元数据的自动生成、词义辨别、 资源层次分类等,同时,它也是很多信息管理任务的重要组成部分 <sup>[1]</sup>。 自动分类的研究可以追溯到上世纪 50 年代; 上世纪 80 年代末之 前,自动分类问题大多采用知识工程的方法,即利用专家规则来进行 分类;上世纪 90 年代以后,统计方法和机器学习的方法被引入到文 本自动分类中,取得了丰硕的成果并逐渐取代了知识工程方法。 文本分类的一般流程为文本预处理、特征抽取、构建分类器和分 类结果评价。目前,针对文本分类的算法主要集中在特征抽取和分类 器构建这两个方面。本文主要介绍文本分类中的几种常用算法。对于 分类算法的分类方式目前没有统一的结论<sup>[12]</sup>, 鉴于各分 类算法对文本语义信息的利用程度不同, 可以考虑将其分为基于词形 的文本分类和基于语义的文本分类两大类别。 1 基于词形的文本分类 基于词形的方法倾向于将文本视为无意义无联系的字或词的集 合,几乎没有利用文本的语义信息。 1.1 贝叶斯分类 贝叶斯分类算法以贝叶斯理论为基础, 是一种利用先验概率与条 件概率进行文本分类的算法,具有实现简单、准确率高、速度快的特 点。贝叶斯算法基于独立性假设,即一个属性对给定类的影响独立于 其它属性的值。独立性假设的约束过于强,在实际应用中经常是不成 立的,因此在很多情况下其分类准确率并不能保证<sup>[3]</sup>。 1.2 决策树 本文将决策树视为一种基于规则学习的算法, 其目的是学习一系 列分类规则,即属性与类别的关系。在决策树算法中,分类规则可用 从根节点到任一叶节点的路径表示,具有很强的可理解性和可用性。 该算法涉及两个核心问题:决策树的建立和决策树的剪枝。 常见决策树算法包括 CART、ID3、C4.5、CHAID 等。其中影响 最大的是 ID3<sup>[4]</sup>,该算法由 Quinlan 于 1986 年提出,算 法的理论清晰、 方法简单, 但只对较小的数据集有效, 且对噪声敏感, 在测试属性选择时,它倾向于选择取值较多的属性。C4.5 算法是对 ID3 的改进,主要解决了 ID3 算法选择偏向取值较多的属性问题。 1.3k 最近邻 k 最近邻算法是一种基于实例的消极学习算法。 该算法的思想是: 统计一个样本在特征空间中的 k 个最相似的样本类别, 进而采用加权 投票的方式确定待分类样本的类别。KNN 分类器只存储实例,对于 每个未知输入都要遍历训练样本, 因而在应对大量待分类数据时其算 法效率很低。 1.4Rocchio 算法 Rocchio 算法是 20 世纪 70 年代左右在 Salton 的 SMART 系统中 引入并广泛流传的一种分类算法, 它通过构造类别的中心向量及相应 类域的方式进行分类。该方法的优点是简单且直观,缺点是对线性不 可分的数

赞助商链接
相关文章:
更多相关标签: