基于迁移学习的水产动物图像识别方法
0 引言
近年来智能化水产养殖已成为行业发展趋势,在节省劳动力的同时可大幅提高工作效率[1]。为水产动物制订相应的智能化管理策略,首先需要进行高效的识别工作,但养殖数量与品种通常相当庞大,传统依靠人工筛选的识别方式,如:Naiberg等[2]提出的鱼尺寸测量原型系统(Fish Image Capturing and Sizing System,FICASS),虽然有不错的精度,但会极大降低养殖系统的工作效率,且存在较强的主观性;而新兴的深度卷积神经网络(Deep Convolutional Neural Network,DCNN)虽然有着卓越的性能优势,但训练模型开销极大,严重限制了这一技术在水产养殖领域的应用。
迁移学习的目标是将从原环境中学到的知识迁移到新环境中辅助完成学习任务,避免传统机器学习中普遍存在的同分布假设。这一概念在提出后已经应用到了实际问题中,如文本分类[3]和情绪挖掘[4]等,但在水产动物图像识别方面我国对此方面的研究还很少,缺乏具有针对性的应用实例。
本文提出一种基于参数迁移策略,以微调的方式将VGG16、InceptionV3、ResNet50 这三个采用 ImageNet训练集开发的预训练模型,在小规模水产养殖单位所具有的资源条件下进行移植再训练,并通过实验比较模型的优劣,分析不同场景下的适应性。
本文所采用的掘进支护技术位于9#煤层的9105工作面,该工作面顺槽长度为1.82 km,其东部属于未开拓地区,在顺槽北侧留有三条大巷,西侧工作面为9103,南侧紧邻矿井边缘,相邻9103工作面已经完成开采,不会对9105工作面的巷道挖掘工作造成影响。9105工作面的顺槽掘进方向为东南5°,顺槽北侧地势较高而南侧地势则较低,东侧地势较高而西侧地势较低,该工作面上部煤层平均厚度为1.75 m,煤层硬度系数(f)为3~5,并且没有夹矸。9105工作面的胶带顺槽是按照空留巷所挖掘出的巷道,该巷道用途为通风、辅助运输及行人。
1 卷积神经网络与迁移学习
1.1 卷积神经网络
传统图像识别算法如支持向量机(Support Vector Machine,SVM)经过多年的研究发展虽已趋于成熟接近性能上限,依然难以充分利用图像的全部信息达到较高的准确率,而其他基于特征设计的浅层模型,如点分布模型(Point Distribution Model,PDM)[5]、模板匹配法(Template Matching,TM)[6]、Haar分类器[7]仍不同程度存在依赖人工参考点、需要建立模板等缺点,在实现自动化的进程上还有很大的局限性。在这一情况下,近年来深度卷积神经网络的发展成为图像识别方面最突出的进步,这种方法模仿生物神经网络的层次结构,低层表示抽象细节,高层表示具体语义,通过逐层提取以高度挖掘数据的本质信息,从而完成识别分类,且学习过程中完全自动、无需人工干预的特点是其具有应用潜力的最大优势,近年来通过海量样本集训练得到的深度卷积神经网络模型已经在速度、识别准确率等性能上达到了前所未有的高度[8]。
卷积神经网络通过卷积层与采样层的交替堆叠对原始图像进行特征提取,得到图像的一般化抽象表示,再通过分类器进行分类得到输出结果[9],运算的形式如式(1)所示:
2.2.1 加快信息化平台建设步伐,完善管理机制当前,科技发展日新月异,作为一所培养国家建设需要的综合性应用型人才的高校,无论在教育教学基础设施还是管理体制上,大理大学都应跟上时代发展的步伐,与时俱进。完善学校信息化平台的建设已经迫在眉睫,包括学生管理网站、门禁系统、多功能校园一卡通(用于就餐、购物、图书借阅、考勤计数等刷卡)等,亟待完善。
企业管理系统涉及诸多信息数据,需要大量的系统进行管理运算才能保证企业的正常运转。各个系统既相互独立又相互关联,在连接方式上要选择最适合的结构。例如XI架构总线连接就可以将各个信息系统接连在一起,进行信号和信息数据的转换。在调和过程中,要注意各项服务器和系统的各项参数指标。
1.1.1 VGG16
①流量预警规则:对8:00流量超预警门槛值的设定站点,发布一次预警;以后每过2小时巡查一次,将流量与上次预警时流量比较,如增幅达到或超过预警要求,发布预警。
VGG16是由牛津大学计算机视觉组开发的卷积神经网络结构[11],至今仍被认为是一个杰出的图像识别模型,虽然它的性能已经被后来的Inception和ResNet架构超越,但作为经典模型,其简洁的结构和易于实现的特点使其依然具有研究价值。
VGG16模型把特征提取层分成了5个模块,在整个卷积过程中都使用3×3的过滤器,接受224×224×3的图片作为输入,经过分别具有64、128、256、512、512个卷积核共 5组卷积模块逐步提取特征后,通过2个4 096神经元的全连接层,最后由一个1000神经元的Softmax分类器得到结果,搭建方式简单易懂,但参数利用率较低。
1.1.2 InceptionV3
首先,收集《新视野》电子版,将PDF格式转码为Word格式,由教师分两轮校对完成;其次,进行语料预处理,将所收集的教材文本按课文进行切分,每篇课文成为一个独立的语料样本,清理每个文本的标题、作者姓名和课后思考练习等与课文无关的文本信息,并以每篇课文的文章标题命名语料。语料库包含《新核心》四册,每册均8个单元,每单元2个文本,共计文本数64篇。
2.3.1 替换分类器
迁移学习根据具体实现方法可分为:样本迁移、特征迁移和参数迁移。当源域和目标域的数据非常相近时,样本迁移可以有效解决目标域样本不足的问题,如Dai等[17]通过推广传统AdaBoost算法提出的Tradaboosting算法,可过滤源域中与目标域相似度低的样本,剩下的数据可以直接放入目标域学习新任务;特征迁移通过重构特征找到源域和目标域共享的潜在特征空间从而最小化领域间的差异,如基于流型结构的空间特征网格算法(Spectral Feature Alignment,SFA)[18];参数迁移即当源域样本与目标域样本分布相似时,学习任务之间可共享部分模型分布或先验参数,如Tommasi等[19]使用迁移项代替最小二乘支持向量机(Least Squares Support Vector Machine,LS-SVM)模型中的正则项来得到新的分类模型。
同步电动机因无磁极检测单元,无论接至电网或由他控变频电源馈电,完成起动后进入稳定运行时必须具备电源频率恒定、电压和励磁保持不变的条件。因此,式(1)中的转子转速Ω、电压U、空载电动势E0及同步电抗Xs等物理量及参数皆为定值,所以,同步电动机的电磁转矩T是唯一的变量即功角δ之正弦函数。
我们达成共识,父母要严管孩子的零花钱,不给太多钱。晚上一定要早点回家,不能再在同学家住宿。早上家长一定要及时喊醒孩子,帮助孩子形成规律的生活。孩子感觉到了家长的重视,自己也会重视起来。经过一段时间,这个学生比以前大有进步,不再无故迟到,有事情会及时跟班主任电话联系。人也比以前有礼貌了,目前一切向好的方向发展。
1.2 迁移学习
以微调VGG16为例,将源模型的1000神经元Softmax分类器替换成适应本文实验背景的4元分类器,由于图像识别的特殊性,通常要将靠近全连接层的高层卷积部分全部置为参数可更新状态,而不能只截取其中一段进行微调,因此将卷积模块5的参数设置为可更新,而卷积模块1~4的参数保持固定,继承源模型的底层特征提取能力,如图1所示。在实验中将通过设置不同参数冻结量,以训练时间、验证集准确率为主要指标来评价各模型的性能与优劣。
作为机器学习的分支,迁移学习初衷是节省人工标注样本的时间,近年来由于深度神经网络的迅速发展,迁移学习越来越多地与神经网络相结合,其高资源利用率与较低训练成本的特点吸引学术界和工业界开展了许多相关研究,如DeepMind 开发的PNN(Progress Neural Network)模型[15],通过lateral connection结构,在学习源域知识的基础上,在迁移到其他领域的同时仍然保留模型在源域上的已习得能力,实现源域与目标域之间的信息融合。基于这一技术,PNN使用Mujoco库模拟Jaco机械臂行动并学习行为特征,再迁移至真实机械臂上成功完成相应动作;Long等[16]提出多层适配和多核MMD(Multi-Kernel MMD,MK-MMD)的方法,将源域与目标域投射在一个再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)中求映射后的数据均值差异,再对深度神经网络的高层部分多层适配以进行迁移。
1.1.3 ResNet50
以调查对象对外卖服务的满意度来评价市场效益,采用李克特量表法进行市场效益评价[6].为对比分析选择外卖和学校食堂2个评价对象,设置便利性()、卫生安全()、价格()、口味()、服务态度()和种类()6个评分因子.评分设置5个选项,分别为非常满意、比较满意、一般、不太满意和很不满意.整理调查结果,录入数据,并对5个选项依次赋值为5,4,3,2,1,对数值进行汇总计算和相关建模分析.
针对图像识别任务,即使不同图像内容差异巨大,但在卷积神经网络的低层表示中都由边缘、纹理、颜色等细节构成,对于这类任务,模型的特征抽象能力是可以共用的。本文方法主要涉及参数迁移,即认为可将源模型所具有的特征抽取能力作为先验知识迁移至目标域,使新模型快速获得低层过滤能力,再通过高层的自适应训练调整,进一步完善对图像具体语义的概括能力,从而完成新的识别任务。
1.3 微调
简单的参数迁移方式只替换并训练分类层,而保留源模型的全部特征提取能力,当目标域样本不被包含在源域中时,通常会导致识别准确率下降。
ResNet模型提出一种新的残差结构,与其直接拟合原本的期望网络映射H(x),转为尝试拟合另一个映射:F(x)=H(x)-x,则原来的期望映射变为F(x)+x,这一结构的原理类似差分放大器,当网络深度极大,直接拟合H(x)时,x的变化幅度在经过多层传递后变得越来越小,此时对H(x)影响会变得极其微小以至于不能对权值更新作出贡献;而在尝试拟合F(x)时,由于F(x)是原始输入x与期望映射H(x)之差,x的微小变动会更容易影响到F(x),使网络Loss值对输入样本的变化更加敏感,提高了网络权值更新的精度。这一结构的提出真正实现了极深层网络的搭建[13]。
基于图像底层细节通用的特点,在进行参数迁移时保留卷积模块的低层结构与参数,并设置靠近分类层的高层卷积部分为可训练状态,包括矩阵权重、偏置项与其他正则项系数。将模型放入目标域中进行再训练,由于可训练参数继承自源模型,因此在进行微调时并不是从随机初始值开始进行梯度下降,通常经过小幅度的调整后就可以达到新的最优值,使模型可针对目标样本自适应地调整高层卷积参数从而提高全局概括能力。
传统的机器学习方法存在一个严重弊端:假设训练数据与测试数据服从相同的数据分布,但许多情况下并不满足这种假设,通常需要花费大量的人力与资源重新标注大量数据以满足训练要求,造成了数据的浪费;而迁移学习可从现有数据中抽取并迁移知识,用来完成新的学习任务。具体可形式化定义为:源域Ds,源任务Ts,目标域Dt,域目标任务Tt,域D定义为一个二元对{x,P(X)},其中x为特征空间,P(X)是X的边缘分布,X={x1,x2,…,xn}。任务T也是一个二元对{y,f(x)},y是标签空间,y=f(x)是从训练样本{xi,yi}学习到的目标函数。迁移学习目的是利用Ds与Ts的知识在Dt上帮助求解或提升Tt,其中源域的训练样本数记为ns,目标域中的记为 nt[14]。
图1 采用微调方式修改VGG16模型Fig.1 Modification of VGG16 model through fine-tune
2 实验设计与分析
2.1 实验设置
本文采用的实验环境为Windows10专业版,使用一块GTX 1080ti显卡在TensorFlow+Keras框架下完成实验,实验流程如图2所示。
图2 实验流程Fig.2 Flow chat of experiment
为评估微调在迁移源模型时对性能的提升,实验一设计为首先不使用微调,直接替换分类器,检验其准确率作为对照组,随后再应用微调方式修改模型并进行同样的训练过程并观察结果。
为比较不同微调策略对模型性能的影响,实验二设计为同时训练分类器与卷积层,并调节微调时的可训练参数量,对InceptionV3与ResNet50模型进行深入研究与对比。
2.2 数据归一化与提升
实验采用的数据集由水下摄像机在实验室鱼缸拍摄得到,本文背景项目养殖基地数据库以及网络收集,分为鱼、虾、蟹、贝4类,各300张共计1200张图片作为训练集,另额外各选100张作为验证集。在选取训练样本的过程中采用了部分含有非目标物体(如容器、人手、背景物体等)的图片来模拟随机噪声以提升模型的泛化能力。如图3列出了其中一部分带有噪声的样本。由于采集设备及来源的不同使分辨率相差较大,需先将原始图片进行归一化处理,根据不同模型要求裁剪为224×224或299×299像素。
图3 水产动物图像实例Fig.3 Examples of aquatic animal images
在深度神经网络模型的训练过程中,过拟合是常见的问题,尤其在样本集较小的情况下是很容易遇到的难点。本文实验为缓解过拟合现象,在训练中对样本集进行数据提升,采用旋转、平移、翻转、光照变化等操作处理,使每张原始图片生成32张变形图,扩大样本空间,如图4所示列出了一组示例。
图4 数据提升示例Fig.4 Examples of data enhancement
2.3 实验一与结果分析
InceptionV3由Google提出,前身为GoogleNet。在经典卷积神经网络的卷积结构中,通常只选用某一种尺寸的卷积核,InceptionV3模型提出一种Inception架构,在一个卷积层中同时使用多种尺寸的卷积核,且把较大尺寸的卷积核拆分为较小尺寸,同时提取特征后再合并到一起作为输出结果。Inception结构还使用了1×1卷积核,主要作用在于保持特征图空间尺寸的同时压缩或增加通道数,减少了参数量又能灵活调控张量维度,增强卷积操作的非线性表达能力[12]。
首先观察只进行简单参数迁移后的模型性能,分别将三种源模型的全连接层替换为4分类Softmax分类器,卷积层保持权值不变,即保留预训练模型的归纳能力和泛化能力,将修改后的模型放入目标样本集中训练。
训练的通用参数设置迭代次数为100,批数量为32,其他主要超参数基本一致,均为ImageNet比赛版本中所使用的设置,具体如表1所示,其中Momentum为梯度下降算法中的历史梯度权重系数;BN表示模型是否使用Batch-Normalization技术,即在中间层激活函数输出后进行正则化操作;Inputtensor表示对应模型所接受原始图像的维度。
其中:L表示网络层数,K为卷积核(过滤器),Mj为输入特征图的组合选择,每一层输出特征图都会有唯一的偏置项b[10]。由于权值共享原理,在某一层可以同时有多种过滤器一起工作,但参数量只和过滤器种类相关,因此在提高特征提取效率的同时精简了模型复杂度。每种过滤器负责提取输入图像上的某一种特征,且一次只观察图像的一小块区域,传递给下一卷积层,因此低层输出结果偏抽象、局部;而随着层次加深,卷积核的感受野逐渐扩大,高层的输出结果越来越具体、全局,在足够高的层次后可以观察到人类可以理解的具有原始图像含义的结果。
表1 模型超参数设置Tab.1 Model hyper-parameters setting
224×224×3模型 学习率224×224×3 InceptionV3 1E-4 0.9 √ 299×299×3 ResNet50 1E -4 0.9 √Momentum BN Input-tensor VGG16 1E -4 0.9 —
训练过程中,每次迭代结束后即在验证集上进行一次校验,验证集样本同样经过上述的归一化和数据提升处理,记录每一次迭代后的验证集准确率,取最好成绩作为评估模型性能的依据,结果如表2所示。需要注意的是表中所示的层数并非该模型在ISLVRC比赛版本中的逻辑结构层数,而是在Keras框架下的代码实现层数。
表2 替换分类器后的模型性能Tab.2 Model performance after replacing classifier
网络结构 训练集准确率/%准确率/% 参数量 代码验证集层数VGG16 73.3 69.4 21138500 20 InceptionV3 95.7 95.6 22328356 311 ResNet50 98.1 93.2 24113284 175
2.3.2 通过fine-tune微调特征提取层
为进一步提高准确率,对3个模型进行微调,根据模型结构不同分别采用不同的冻结层数(可训练参数占比均为75%左右),同样迭代100次,并记录全部完成时所用的时间,结果如表3所示。
表3 经过微调后的模型性能Tab.3 Model performance after fine-tune
模型 冻结层数训练集准确率/%验证集准确率/%训练时间/min VGG16 15 99.5 90.2 22 InceptionV3 175 98.7 97.3 65 ResNet50 121 99.8 94.7 20
实验表明采用微调处理可以对模型性能起明显提升作用,尤其是针对VGG16模型提升幅度达到接近20个百分点,原因是VGG16比其他两个模型规模要更小,其卷积模块蕴含的抽象信息量较少,因此在微调过程中产生的权值更新量相对总参数量占比较大,对模型识别能力的修正作用明显。3个模型中在验证集准确率的表现上InceptionV3表现最好,在本实验环境下最高可以达到97%左右的正确率,且InceptionV3的总参数量略少于ResNet50,说明Inception模型的参数利用率最高;而ResNet50虽然准确率略低于InceptionV3,但具有明显的训练时间优势,与 Szegedy等[20]的研究结果一致,即残差结构对于深度神经网络来说并非提高准确率的必要因素,但采用这一结构可以大幅加速训练,从解决梯度弥散问题和缩短训练时间这两方面同时为神经网络模型往极深方向发展提供了理论依据。
2.4 实验二与结果分析
若同时训练分类器与微调卷积模块,模型准确率在一开始会比较低且成本函数的loss值呈快速下降趋势,经过一定数量的迭代后趋于收敛,最后得到与实验一近似的性能,实验二重点以InceptionV3与ResNet50模型为例,在可训练参数占比同为75%的情况下其训练过程图像如图5、6所示。
图5 InceptionV3模型训练过程Fig.5 Training process of InceptionV3 model
图6 ResNet50模型训练过程Fig.6 Training process of ResNet50 model
两种模型都在50次迭代后开始趋于收敛,InceptionV3模型在训练集与验证集上的准确率和loss值都非常接近,模型表现良好,没有出现过拟合;而ResNet50模型的训练集图像和验证集图像之间存在一定的间隙,即使将迭代次数提升到200次以后依然没有改善,因此认为产生了过拟合现象。这一结果进一步验证了Inception架构的多尺寸过滤器设计使其在参数利用率上比ResNet架构更高,与预期的一致,ResNet的残差结构牺牲了部分局部的对图像的特征提取能力,这一结构可以支持更加深层次的结构,在扩大训练样本集后可补足模型的归纳能力,将在后期的实验中进行验证,使在经过数据提升后也难以完全避免,在扩大数据集后可以得到改善。
两组术前NIHSS评分比较差异无统计学意义(P>0.05),术后14 d的NIHSS评分均较术前显著降低,但观察组比对照组改善更明显(P<0.05)。见表3。
实验还对InceptionV3和ResNet50在不同的冻结层数时对模型的影响进行了多次实验,结果如表4、5所示。观察到在减少冻结层数的情况下,ResNet50模型的验证集准确度会略有提升,但当减少到冻结层数为0时,性能会有所下降;而InceptionV3则只有很小幅度的变化,属于随机震荡的范围之内,平均统计后发现在冻结175层时得到最佳结果。综合结果可观察到通过InceptionV3再训练时当可训练参数占比在75%时可以取得较理想的性能;而通过ResNet50再训练得到的模型准确率会随着可训练参数的增加而提高,但在可训练参数超过95%后开始下降。
表4 不同冻结层数时InceptionV3模型性能Tab.4 Performance of InceptionV3 model with different freezing layers
冻结层数 训练集准确率/%验证集准确率/%可训练参数占比/%102 98.1 97.1 89 152 98.5 96.9 80 175 98.7 97.4 74 220 99.2 96.8 59
表5 不同冻结层数时ResNet50模型性能Tab.5 Performance of ResNet50 model with different freezing layers
冻结层数 训练集准确率/%验证集准确率/%可训练参数占比/%99.4 93.5 99 75 98.7 95.8 94 121 99.8 94.7 73 141 99.7 93.7 64 0 163 99.5 93.4 20
3 结语
从实验结果可以看出预训练模型强大的泛化能力与移植能力,在经过耗费资源较少的改造后,即可应用在样本规模和计算资源都较小的应用项目之上。本文针对Inception和ResNet两种优秀的图像识别模型进行了重点实验对比和分析,得出结论:Inception结构具有最高的参数利用率,即可以在较少参数量的情况下达到更高的准确率且没有出现过拟合现象;而ResNet结构的模型表达能力略逊于Inception,但其残差结构在训练时间速度方面有巨大优势,且可以有效地应用在极深网络上,以速度和深度的优势来补足,两者各有特点。将深度学习模型应用到各实际领域时,在收集到更大规模的样本集后可以显著提高模型的性能和应用覆盖面。值得一提的是本实验中使用的ResNet50网络是ResNet模型中较小规模的实例,实际上在ISLVRC2015上比赛的ResNet网络为152层结构,有条件可以使用这一更深层次的网络以取得超越InceptionV3的结果。在后期工作中,将进一步实验讨论不同模型在不同参数冻结量下性能变化的原因,试图找出一个合理的方法来定量地分析应该如何确定冻结层数的选择。
[1] 朱从容.计算机视觉技术在水产养殖中的应用[J].浙江海洋学院学报:自然科学版,2008,27(4):439-443.(ZHU C R.Application of computer vision technology in aquaculture [J].Journal of Zhejiang Ocean University(Natural Science),2008,27(4):439-443.)
[2] NAIBERG A, PETRELL R J, SAVAGE C R, et al.Stereo video technique to size fish in sea cage and tanks[J].Aquaculture Engineering,1993,16(1):393-402.
[3] GAO J, FAN W, JIANG J, et al.Knowledge transfer via multiple model local structure mapping[C]//KDD 2008:Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2008:283-291.
[4] ZHANG Y,YEUNG D Y.Transfer metric learning by learning task relationships[C]//KDD 2010:Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2010:1199-1208.
[5] COOTES T F, TAYLOR C J.Data driven refinement of active shape model search[C]//Proceedings of 7th British Machine Vision Conference.Edinburgh, UK:University of Edinburgh, 1996:383 -392.
[6] MAHMOOD A,KHAN S.Correlation-coefficient based fast template matching through partial elimination[J].IEEE Transactions on Image Processing,2012,21(4):2099-2108.
[7] VIOLA P,JONES M.Rapid object detection using a boosted cascade of simple features[C]//CVPR 2001:Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington, DC:IEEE Computer Society,2001:511-518.
[8] SCHMIDHUBER J.Deep learning in neural networks:an overview[J].Neural Networks, 2015, 61:85 -117.
[9] LI S, KWOK J T, ZHU H, et al.Texture classification using the support vector machines[J].Pattern Recognition, 2003, 36(12):2883-2893.
[10] 丁蓬莉,李清勇,张振,等.糖尿病性视网膜图像的深度神经网络分类方法[J].计算机应用,2017,37(3):699-704.(DING P L, LI Q Y, ZHANG Z, et al.Diabetic retinal image classification method based on deep neural network [J].Journal of Computer Applications, 2017, 37(3):699 -704.)
[11] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].[2017-05-10].https://arxiv.org/abs/1409.1556.
[12] SZEGEDY C,VANHOUCKE V, IOFFE S, et al.Rethinking the inception architecture for computer vision[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE,2016:2818-2826.
[13] HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ:IEEE,2016:770.
[14] 余化鹏,张朋,朱进.基于深度迁移学习的人脸识别方法研究[J].成都大学学报 (自然科学版),2017,36(2):151-156.(YU H P, ZHANG P, ZHU J.Study on face recognition method based on deep transfer learning [J].Journal of Chengdu University(Natural Science Edition),2017, 36(2):151 -156.)
[15] RUSU A A,RABINOWITZ N C,DESJARDINS G,et al.Progressive neural networks[EB/OL].[2017-05-10].https://arxiv.org/abs/1606.04671.
[16] LONG M,CAO Y,WANG J,et al.Learning transferable features with deep adaptation networks[EB/OL].[2017-05-10].https://arxiv.org/abs/1502.02791.
[17] DAI W Y,YANG Q,XUE G R,et a1.Boosting for transfer learning[C]//Proceedings of the 24th International Conference on Machine Learning.New York:ACM,2007:193-200.
[18] PAN S J,NI X,SUN J T,et al.Cross-domain sentiment classification via spectral feature alignment[C]//WWW 2010:Proceedings of the 19th International Conference on World Wide Web.New York:ACM,2010:751-760.
[19] TOMMASI T,ORABONA F,CAPUTO B.Learning categories from few examples with multi model knowledge transfer[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(5):928-941.
[20] SZEGEDY C,IOFFE S,VANHOUCKE V,et al.Inception-v4,Inception-ResNet and the impact of residual connections on learning[EB/OL].[2017-05-10].https://arxiv.org/abs/1602.07261.