摘要:本文运用以模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FWCA),并且通过一个实例阐明了实现过程。作者利用此算法亲自设计实现了一个“网页模糊归类测试系统”,通过分析大量实验数据证明了利用此算法得归类效果非常稳定和准确。
关键词:FWCA 模糊综合评判 网页归类 分类浏览 搜索引擎
自有文字和书籍以来,人类就开始注意文章的分门别类和编撰目录。那些目录事实上就将文章按照内容的类别进行了分类。九十年代以来,Internet 以惊人的速度发展起来,Web的容量增长迅速,平均每天增加100万个页面。计算技术发展到今天,靠人来阅读互联网上信息和对网上信息做分门别类和总结已经不可能。
搜索引擎的分类浏览模式由此应运而生。它的目录分类的质量较高,检索效果好;但是需要人工维护,因此存在成本高、信息更新慢、维护的工作量大的缺点。而基于模糊技术的网页自动归类能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握网络信息。
网页模糊归类步骤与算法
简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中 Wi 为第 i 个元素(以下均称为“特征项”)的数值。当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。
构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的。首先,需要考虑词语的性质。一些通用的、各个类别都普遍存在的词汇对分类的贡献是很小的,因此特征提取过程需要去掉对表达网页类别不太重要的词汇。例如“的”、“地”、“得”、“着”、“了”等等。其次,在某特定类中出现比重大而在其他类中出现比重小的词汇对文本分类的贡献大,为了提高分类精度,可以利用词语的互信息量筛选出针对该类的特征项集合。具体操作方法是算出每个词语的互信息量并排序,然后抽取前n个词语作为该类别的特征项,抽取的原则是反复试验使得网页归类效果最优。互信息量(I)计算公式由下式给出:
为了让计算机为我们进行网页的自动归类,必须先对计算机进行训练。只要训练网页足够多,那么由计算机进行的归类活动也将是准确的。所有的训练样本都需表示为向量 。并使用每个词的相对词频(TF-IDF 公式)对网页样本的特征项进行量化。然后,将每个类别中的所有训练样本数据合成为一个平均参照样本,计算方法就是将每个特征项的值求算术平均。相对词频计算公式由下式给出:
在归类过程中,采用三级模糊综合评判。一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集(词性)包括:名词, 动词, 形容词, 副词, 介词, 连词, 助词, 数字, 符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0), V2(不太可能属于0.25), V3(可能属于0.5), V4(很可能属于0.75), V5(属于1)}。
专家随机抽取了300篇网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,将一级指标因素权重集确定为A={0.128, 0.128, 0.128, 0.104, 0.104, 0.104, 0.06, 0.06, 0.06, 0.06, 0.05, 0.05};根据语言学专家对各类别中不同词性的词语对标志一个类别(以中图分类法为标准)重要性程度统计和评分,将二级指标因素权重集确定为An={0.28, 0.18, 0.24, 0.06, 0.05, 0.04, 0.04, 0.06, 0.05};根据词语的互信息量确定出三级指标因素权重为Anm={Anm1, Anm2 … Anmx} 其中,Anmx即为对应词语的互信息量
隶属函数采用卡夫曼教授提出的隶属函数确定方法(正态分布模型)确定如下:
① 词频针对“不属于”的隶属函数
② 词频针对“不太可能属于”的隶属函数
③ 词频针对“不可能属于”的隶属函数
④ 词频针对“很可能属于”的隶属函数
⑤ 频针对“属于”的隶属函数
其中,axyz是训练样本中词语的相对词频;x为样本网页中对应词的统计词频;系数是通过人工评判得到一些特殊点,由待定系数法求出的。
下面就要根据多级模糊综合评判的计算方法与步骤将待归类网页与所有类别的平均参照样本进行一遍计算,得出一组表示该网页与各个类别贴近度的数值。然后按照“最大隶属原则”,将网页划到Vn值最大的对应的类别中;或者用“域值法”,事先确定一个不大于1的域值λ,若Vn>λ则认为网页属于此类别,因此,一个网页可能同时属于多个类别。
网页模糊归类实例
(1).前期工作
.简化的分类的标准:经济类,体育类,科教类
.训练样本数目:48篇(三类各16篇)
.待归类网页:
.一级指标因素及权重:U={U1=0.5, U2=0.5}
.二级指标因素及权重:U1={U11=1.0 }
U2={U21=0.4}, U22=0.26), U23=0.34 }
.三级指标因素及权重:
U11={U111=0.86}, U112=0.14)}
U21={U211=0.11, U212=0.35, U213=0.21, U214=0.06, U215=0.10, U216=0.17}
U22={U221=0.26, U222=0.38, U223=0.36}
U23={U231=0.46, U232=0.54}
.经济类训练网页样本相对词频:
a11={a111(经济1.2), a112(快讯1.2)}
a21={a211(我国1.1), a212(经济2.2), a213(水平1.8), a214(三年0.5), a215(人民0.9), a216(生活1.3)}
a22={a221(实现1.3), a222(翻番1.8), a223(提高1.7)}
a23={a231(连续1.6), a232(日益1.7)}
(2).模糊综合评判
首先统计待分类网页的各个词语的绝对词频如下:
U11={U111(经济1), U112(快讯1)}
U21={U211(我国1), U212(经济2), U213(水平1), U214(三年1), U215(人民1), U216(生活1)}
U22={U221(实现1), U222(翻番1), U223(提高1)}
U23={U231(连续1), U232(日益1)}
总共可以得到4个一级模糊综合评判矩阵如下:
构造二级模糊综合评判矩阵
①采用M(∧,∨)算子的运算结果
②采用M(., )算子的运算结果
构造三级模糊综合评判矩阵
①采用M(∧,∨)算子的运算结果
②采用M(., )算子的运算结果
多因素综合评判
①采用M(∧,∨)算子的运算结果
②采用M(., )算子的运算结果
网页归类决策
通过三轮计算得出下表:
样本与类别贴近度 经济类 体育类 科教类
采用M(∧,∨)算子 0.68 0.31 0.42
采用M(., )算子
0.80 0.16 0.27
不管采用哪一种算子,如果用“最大隶属原则”判断,显然都应该属于“经济类”;如果用“域值法”(λ=0.6)判断,也应该都属于“经济类”。
结果分析
由上述算例可以看出,若用“最大隶属原则”判断,取λ=0.68,采用M(∧,∨)算子的算法就无法对此网页归类了,而采用M(., )算子却可以对网页正确归类。另外,采用M(., )算子的结果区分效果比较明显,与人工归类的结果比较接近。由此可见,采用M(., )算子的算法明显优于采用M(∧,∨)算子的算法。
本文的实例网页最后得出的与“经济类”网页的贴近值仅0.8,比理想值(人工估计为0.9)偏低了了一些,与其他类别的贴近值也存在一些偏差。这是因为本文中举的例子为了简单起见,训练文本才48篇,导致计算机训练不足;另外,待归类网页过于简单。这些都导致了归类结果与理想值的偏差,在实际情况下,这些问题都可以避免。
作者在自行开发的“网页模糊归类测试系统”平台上作了大量对于网页的归类测试工作 (详见附录) ,测试文档与训练网页都是取自“中国新闻网”新闻网页。在训练网页达到1200篇的时候,归类准确率封闭测试为85.73%,开放测试为78.82%。虽然这种以模糊综合评判为核心的算法实现的系统初始化工作比较繁重,但是归类的结果准确率很高,因此还是非常具有实际应用价值的。
参考文献
〔1〕 卜东波. 聚类/分类理论研究及其在大规模文本挖掘中的应用, 北京:中国科学院计算技术研究所, 2000.
〔2〕 边肇祺, 张学工. 模式识别(第二版), 北京:清华大学出版社, 2000, 83-159, 284-300.
〔3〕 韩正忠, 方宁生. 模糊数学应用, 南京:东南大学出版社 2003.2
〔4〕 刘智颖. 自然语言理解与机器翻译, 清华大学出版社 2001.7
〔5〕 刘祖根. 基于WordNet的文本分类技术研究和实现, 长江大学 2002
〔6〕 庞剑锋, 卜东波, 白硕. 基于向量空间模型的文本自动分类系统的研究与实现, 计算机应用研究, 2001, 9(9): 23-26.
〔7〕 刘增良. 模糊技术与应用选编, 北京航空航天大学出版社, 1997.2(1) ISBN 7-81012-691-1
〔8〕 孙贻源. 模糊数学, 华中工学院出版社, 1984
〔9〕 张俊福. 应用模糊数学, 地质出版社, 1988.11