一.研究背景: 

Web上的数据不仅量大而且增长速度快。所以Web已经成为人们获取信息的重要手段。如何在Web这样的分布式环境中找到有价值的信息,并从中提取出知识已经成为目前信息检索、数据挖掘和知识管理等研究领域的重要课题。目前基于传统信息检索(Information Retrieval,IR)方法的搜索引擎大部分使用的是基于文档内容的词频统计,即TFIDF方法的索引方式。这种基于文档关键字的检索手段,随着Web上数据量的迅速增加而越来越不适应人们的要求,它的主要缺陷有: 
1.信息过量,返回太多的无关内容。 
2.Web的覆盖面有限,根据Steve Lawrence的报告,目前任何搜索引擎索引的部分不超过整个Web的30%。 
3.面向关键字的搜索。目前搜索技术仅仅对关键字进行简单的匹配,而不能根据用户查询目的进行查询内容的扩展,此外有些信息查询是很难用关键字组合来准确的描述的。Web中包含着大量信息,而这些信息经过提炼加工可以上升为知识,单纯的使用统计的方法无法把海量的信息转化为知识的形态。 
为了解决Web信息检索中存在的各种问题,Etzioni提出了Web挖掘(Web Mining)的概念[1]:在已知数据样本的基础上,通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性。简单的说,就是使用数据挖掘技术自动的从Web文档和服务中发现和提取信息和知识的技术。Web挖掘可以协助Web搜索引擎找出高质量的网页和分析Web语义结构、点击信息等使Web服务更加智能化。Web文本数据是最普通的和应用性最广的,因此对Web文本信息的挖掘是很有意义和价值的。 
二.Web文本挖掘 
2.1 Web文本挖掘概念 
Web文档有其自身的特点,文档的内容主要由HTML标记、文本、图像、客户端脚本等组成。我们这里的研究对象是Web文档中的文本,所以经由网络蜘蛛抓取的信息仅包含HTML标记、文本和脚本。Web文本挖掘是采用计算语言学的原理对Web文本信息进行抽取的研究和实践。Web文本挖掘可以对Web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。Web文本挖掘和通常的文本挖掘有类似之处,但是,Web文本信息是半结构化文本,Web文档中的HTML标记给文档提供了额外的信息,可以借此提高Web文本挖掘的性能[2]。 
2.2 Web文本的向量表示 
Web文本挖掘源于传统的文本挖掘。在传统的信息检索领域,文档用向量空间模型(VSM)来表示[3] 。向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,其计算方法主要运用 TF-IDF 公式,目前存在多种 TF-IDF 公式,我们给出了一种比较普遍的 TF-IDF 公式:图片1 
其中 , 为词 t 在文本 中的权重,而 为词 t 在文本 中的词频,N 为训练文本的总数, 为训练文本集中出现 t 的文本数,分母为归一化因子。 
2.3特征项的抽取 
构成文本的词汇的数量很大,所以表示文本的特征向量数目也相当大,如此高维的特征向量会大大增加计算的负担,降低准确度,因此有必要对训练文本进行特征子集的选取。训练文本特征选取即特征空间降维处理,是通过扫描所有文本组成的特征向量空间,对每个向量空间进行特征项抽取,抽取出能代表其所在文章大意的特征向量,然后对所有特征向量再次特征抽取,得到所有文本共同的特征向量。计算信息增益,交叉熵以及潜在语义索引(LSI)是比较常用的几种抽取特征项的算法。 
2.4Web文本分类: 
简单地说,文本分类的任务是,在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度而言,分类的实质是一个映射的过程,它将未标明类别的文本映射到已有的类别中。该映射可以是一一映射,也可以是一对多映射[4]。 
2.4.1Web文本分类模型 
在文本分类中,我们通常要用到决策树或线性分析器这两个模型之一[5],决策树分类器有个优点是它可以减小到一个基本可理解的分类规则,这就允许分类模型可以进行手工调整。然而,线性模型一般更精确。 
2.4.2Web文本分类算法 
训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的训练算法和分类算法,例如,简单向量距离分类法、贝叶斯方法、最近 K 邻居(KNN)方法、支持向量机方法、神经网络方法,最大平均熵方法、投票(Voting)分类算法等等,本文以下具体介绍三种分类算法: 
1. 简单向量距离分类法 
该方法的基本思路是:根据算术平均为每类文本集生成一个代表该类的中心向量,然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度),最后判定文本属于与文本距离最近的类,具体步骤如下: 
(1)计算每类文本集的中心向量,计算方法为所有训练文本向量简单的算术平均 
(2)新文本到来后,先进行分词,再将文本表示为特征向量 
(3)计算新文本特征向量和每类中心向量间的相似度,公式为:图片2 

其中 为新文本的特征向量, 为第 j 类的中心向量,M 为特征向量的维数, 为向量的第 M 维。 
(4)比较每类中心向量与新文本的相似度,将文本分到相似度最大的那个类别中。 
2. 贝叶斯算法 
该算法的基本思路是计算文本属于类别的概率,文本属于类别的几率等于文本中每个词属于类别的几率的综合表达式,具体算法步骤如下: 
(1)计算特征词属于每个类别的几率向量, 图片3 
其中, 
(2)在新文本到达时,根据特征词分词,然后按下面的公式计算该文本 属于类 的几率: 图片4 

其中, , 为相似含义, 为类的总数, 为 在 中的词频,n 为特征词总数。 
(3)比较新文本属于所有类的几率,将文本分到几率最大的那个类别中。 
3. 最近K邻居(KNN)算法 
该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K篇文本,根据这K篇文本所属的类别判定新文本所属的类别,具体算法步骤如下: 
(1)根据特征项集合重新描述训练文本向量 
(2)在新文本到达后,根据特征词来分词新文本,确定新文本的向量表示 
(3)在训练文本集中选出与新文本最相似的K个文本,计算公式为:图片5 

其中,K值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整K值,一般初始值定为几百到几千之间。 
(4)在新文本的K个邻居中,依次计算每类的权重,计算公式如下:图片6 

其中, 为新文本的特征向量, 为相似度计算公式,与上一步骤的计算公式相同,而 为类别属性函数,即,如果 属于类 ,那么函数值为 1,否则为 0。 
(5)比较类的权重,将文本分到权重最大的那个类别中。 
另外,支持向量机和神经网络算法在文本分类系统中应用得也较为广泛。支持向量机的基本思想是使用简单的线形分类器划分样本空间。对于在当前特征空间中线形不可分的模式,则使用一个核函数把样本映射到一个高维空间中,使得样本能够线形可分。而神经网络算法采用感知算法进行分类。在这种模型中,分类知识被隐式地存储在连接的权值上,使用迭代算法来确定权值向量。当网络输出判别正确时,权值向量保持不变,否则进行增加或降低的调整,因此也称为奖惩法。投票算法分类器(Voted Classification)也叫做组合分类器。通过组合多个弱分类器的分类结果来得到一个强分类器。可分为Bagging和Boosting两类算法。这两类算法的主要区别是对训练样本的取样方式不同。Bagging采用均匀取样,而Boosting根据错误率来取样。 
高精度算法如:SVM、Boosting.。这类算法的分类精度很高,但训练与分类时间很长。往往难以满足大规模问题的需要。所以,缩短训练与分类时间是改进高精度算法的关键所在。 
三.结语 
随着www上信息量的不断增加,如何在信息海洋中找到真正需要的内容,成了专家学者关注的焦点。Web挖掘就是一个很好的途径,也是Web技术中一个重要的研究领域。Web文本挖掘是Web挖掘的重要代表,可以帮助用户节约检索时间,使用户比较准确的找到需要的资料,可以提高Web文档的利用价值等,它使充分利用Web大量的有价值的信息成为可能,为智能化Web奠定了基础。 
备注:
参考文献: [1]O Eyzioni.The world wild web: Quagmire or gold mine[J].Communication of the ACM,1996:39(11) [2]王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513—520. [3] Sahon G,MeGill M J.Introduction to Modern Information Retrieva1.M eGraw-H.1l,1983 [4]孙建军,成颖 等 编著 信息检索技术[M] 科学出版社 北京 2004 10 p161 [5]Zhang, T., & Oles, F. J. (2001). Text categorization based on regularized linear classification methods.