无忧文档

P15_基于Bootstrapping的文本分类模型

中 文 信 息 学 报

第19卷第2期 JOURNALOFCHINESEINFORMATIONPROCESSING

文章编号:1003-0077(2005)02-0086-07Vol119No12

基于Bootstrapping的文本分类模型①

陈文亮,朱慕华,朱靖波,姚天顺

(东北大学自然语言处理实验室,辽宁沈阳 110004)

摘要:本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器的文本分类性能。文中提出一个权重因子来调整新的种子样本在分类器训练过程中的权重。实验结果表明,在相同的手工训练语料的条件下,与传统的文本分类模型相比这种基于Bootstrapping的文本分类模型具有明显优势,仅使用每类100篇种子训练集,分类结果的F1值为70156%,比传统模型高出4170%。该模型通过使用适当的权重因子可以更好改善分类器的训练效果。

关键词:计算机应用;中文信息处理;文本分类;最大熵模型;权重因子

中图分类号:TP391   文献标识码:A

Semi2SupervisedTextCategorizationUsingBootstrapping

CHENWen2liang,ZHUMu2hua,ZHUJing2bo,YAOTian2shun

(NaturalLanguageProcessingLab,NortheasternUniversity,Shenyang,Liaoning110004,China)

Abstract:Thispaperproposesasemi2supervisedtextcategorizationusingbootstrapping.TheSystemusestheMaximumEn2tropyModelasthetextclassifier.Itlearnsmoreautomaticlabeledsamplesasnewseedtrainingsamplesfromunlabeledsam2plesusingasmallsizeofseedtrainingsamples.Inthispaper,weuseaweightedfactortoadjusttheweightofnewseedsamplesduringthefollowingtrainingprocess.Theexperimentalresultsshowthattheproposedsystemperformsbetterthantheconventionalsystemwiththesamelabeleddocuments.Andityields70156%F1usingonly1002labeleddocumentsforeachcategory,417%overtheconventionalsystemdoes.Anditcanprovidethesameperformanceastheconventionalsys2temusing50%orlesstrainingsamples.Theresultsalsoshowthattheweightedfactorcanimprovetheperformance.keywords:computerapplication;Chineseinformationprocessing;textcategorization;maximumentropy;weightfactor1 引言

文本分类问题一直是自然语言处理领域的一个重要课题。近年来,国内外研究人员对文本分类问题进行深入研究,他们采用很多不同方法来构造分类器,例如:KNN、na veBayes、Maxi2mumEntropy、SVM、Rocchio、DecisionTree、NNet、LLSF等等,这些分类系统都需要大量的标注语料才能达到较好的分类性能[1~4]。同时,随着互联网的发展,大规模的无标注文档越来越容易获得。近年来,有很多研究者开始研究如何用无标注的语料来提高小标注训练集的训练效果。Nigam提出用EM方法从未标注语料和小标注语料训练分类器,其中,EM是一种最大似然估计①收稿日期:2004-06-15

基金资助:国家自然科学基金和微软亚洲研究院联合资助项目(60260319);教育部科学技术研究重点资助项目(104065);国家自然科学基金资助项目(6047140)

),男,博士生,研究方向为文本分类和机器学习.作者简介:陈文亮(1977—

86

相关文档
热门文档
你可能喜欢
  • 自动系统
  • 自动文本分类
  • 神经网络 文本分类
  • 文本分类算法
  • 支持向量机原理
评论