无忧文档

_无师自通_机器学习方法的核心算法分析

_无师自通_机器学习方法的核心算法分析

ISSN1009-3044第7卷第年4月)10期(2011电脑知识与技术ComputerKnowledgeandTechnologyVol.7,No.10,April2011,pp.2335-2338

E-mail:xsjl@http://www.51wendang.com

电脑知识与技术ComputerKnowledgeandTechnologyhttp://www.51wendang.com

Tel:+86-551-56909635690964

“无师自通”机器学习方法的核心算法分析

周欣

(中央财经大学信息学院,北京100081)

摘要:机器学习的发展趋势,就是不断地使用易获得的、

_无师自通_机器学习方法的核心算法分析

廉价的数据作为样本数据

_无师自通_机器学习方法的核心算法分析

,来辅助训练数据进行学习。“无师自通”学习是迁移学习的一种改进,它使用未标记的数据集作为样本数据集,且并不假设未标记数据集和标记数据集有着同样的数据分布,它运用稀疏编码方法来对未标记数据集得到一个更高层次的表示。然后,再使用经典的监督学习方法如SVM方法来对得到的新的数据集进行机器学习。该文将介绍“无师自通”学习法的主要原理,并对其核心算法—稀疏编码算法进行深入分析并通过实验给出具体的实例。

关键词:机器学习;无师自通;未标记数据集;稀疏编码;监督学习中图分类号:TP18

文献标识码:A

文章编号:1009-3044(2011)10-2335-04

TheCoreAlgorithmof"Self-taughtLearninig"ZHOUXin

(SchoolofInformation,CentralUniversityofFinanceandEconomics,Beijing100081,China)

Abstract:Thetrendofmachinelearningistogeteasy-obtained、cheapdataassampledata,andassisttrainingdatatodomachinelearn-ing.'Self-taughtLearning'isanimprovementontransferlearning,itusesunlabeleddataassampledata,anditdoesnotassumetheunla-beleddatafollowsthesameclasslabelsorgenerativedistributionasthelabeleddata,itusessparsecodingtoconstructhigher-levelfeatures,

thenusesclassicalsupervisedlearningmethodsuchasSVMtodomachinelearningonthenewlydata.Inthispaper,Iwillintroducethebasicprincipleof“Self-taughtLearning”,andanalysethecorealgorithm-sparsecoding,finallygiveanexamplebyanexperiment.Keywords:machinelearning;self-taughtlearning;unlabeleddataset;sparsecoding;supervisedlearning

“无师自通”学习方法是一种新的机器学习框架,它最早是由斯坦福大学的几位研究人员在2007年的国际机器学习会议上提出的。它不同于传统的监督学习、无监督学习和增强学习(或者称为基于评价的学习),该方法通过从未标记数据样本中学习到一个紧凑的、有效的表示,然后将学习到的特征表示方法应用到监督学习任务中。“无师自通”学习方法不仅利用到了标记数据,也用到了未标记数据,所以它既不是监督学习,也不是非监督学习,而是一种半监督学习。

“无师自通”学习方法为机器学习提供了多样的选择性,他对于标记样本以及源领域与目标领域的限制较小,具有很强的可迁移性。我们可以运用它,从事信息处理中的分类任务。它不仅适用于文本信息的分类,也适用于对电影,录音,图象等其他非文本数据的分类。

1基本框架

图1为“无师自通”学习方法的基本框架。

2核心算法-稀疏编码

2.1来源

,生物学实验表明,视皮层对外界刺激的处理采用神经稀疏表示原则。

稀疏编码目前被假设为是一种对多维数据进行线性分解的表示方法。假设输入数据

X=(x1,x2,…,xn)T为n维随机向量,用S=(s1,s2,…,sm)T表示线性转换后的m维随机向量,那么线性转换矩阵为m×n维,记为M.线性转换表达式为:S=MX.S为转换后的稀疏分量,满足稀疏分布的要求,且向量S尽可能地相互独立.”稀疏性”是指随机向量的大部分元素为0,仅有少数神经元是活动的.稀疏分布有较低的熵值.可以减少分量之间的相关性。2.2稀疏编码在“无师自通”学习法中的应用

在“无师自通”学习方法中,我们使用稀疏编码来求未标记数据集的基元和最优系数。

2.3稀疏编码的实现方案

图1“无师自通”学习方法的基本框架

收稿日期:2011-01-25

作者简介:周欣(1982-),男,硕士,主要研究方向为数据库,数据挖掘,商务智能。

本栏目责任编辑:谢媛媛

软件设计开发

2335

相关文档
热门文档
你可能喜欢
  • 机器学习十大算法
  • 学习发展
  • 学习方法
  • 股票交易
  • 机器学习数据
  • 数据挖掘技术
  • 财务预警模型
  • 机器学习综述
评论