治白癜风好的医院 http://bdfyy999.com/影像诊断本质上是一个计算机视觉问题,理想情况下将计算机视觉成熟技术搬过来就可以,但影像诊断往往还存在很多独特的行业性问题,技术如何破局这些“原生性难题”?年8月7日,全球人工智能和机器人峰会(CCF-GAIR)正式开幕。CCF-GAIR峰会由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。从年的学产结合,年的产业落地,年的垂直细分,年的人工智能40周年,峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。在8月9日的医疗科技专场上,腾讯天衍实验室主任、美国医学和生物工程学会的会士(AIMBEFellow)、IEEE医学影像杂志副编郑冶枫博士,分享了小样本学习和域自适应技术在医学影像AI问题中的最新研究思路及应用进展。郑冶枫指出,从本质上来看,影像诊断是一个计算机视觉问题,理想情况下将计算机视觉成熟技术搬过来就可以,但影像诊断往往还存在很多独特的行业性问题。第一,数据量少(缺乏训练数据),对AI算法团队来说是一个难题。因为缺乏数据样本,数据来源和标注问题都很大,医学影像需要专业医生标注,而培养一个专业医生需要十年以上的时间。第二,算法跨中心泛化能力差。开发一个疾病/场景,医院做深度捆绑、利用数据进行交叉验证后,能得到比较理想的结果。但如果把这个算医院,准确率会相差很大。第三,准确度要求高。医疗是一个严谨的场景,所有的诊断建议都可能对病人健康产生直接影响。在第一个问题上,郑冶枫博士提出,迁移学习是一个很好的方式,可以将某个任务(源域)上训练好的模型迁移到另一个任务(目标域)。而为了获取更多的医学数据、积少成多,郑冶枫博士团队提出了MedD:共享编码器的多任务分割网络,在大量异质的公开数据集上预训练,然后迁移到其它任务,并且进行了开源输出。当然,除了MedD,郑冶枫博士团队还提出了基于魔方变换的自监督学习,在预训练阶段不需要人工标定,从而减少大量的时间成本。另外一方面,为了解决域偏移的问题,他们还提出了新型无监督域自适应(UDA)的方法,来缓和域偏移所导致的性能下降。该方法仅仅需要源域的数据、标注以及目标域的部分图像,无需目标域的标注,即可实现两个领域的自适应。在演讲中,他以VideoGAN:视频风格转换以及OP-Net:基于单张图像的风格转换的两个案例进行了说明。以下为郑冶枫的现场演讲内容,雷锋网《医健AI掘金志》作了不改变原意的编辑及整理郑冶枫:首先介绍一下天衍实验室的情况。天衍实验室成立于年9月份,当年的90变革让腾讯开始全面拥抱互联网,其中天衍实验室是专注医学AI的团队,专注支持腾讯医疗线业务。作为一个实验室,我们过去两年已经申请多项AI技术专利,今年上半年也发表0多篇文章,并获得五项医疗方面竞赛冠军。实验室依托腾讯这样一个平台,覆盖业务比较广,例如投身医疗“抗疫”这件事,在toC、toB、toG场景都有所覆盖,toC其中主要就是依托腾讯健康小程序入口,快速上线疫情专区、疫情知识问答等;在toB场景,也上线了新冠肺炎CT辅助诊断算法;toG场景则是配合政府部门做疾病发展预测,为政策决策提供支持。腾讯上半年公布的财报里面,也专门总结了腾讯在抗疫期间做的工作,其中红色的就是和实验室密切相关的,例如在15亿抗疫基金里面拨出一部分资金,购买6台车载CT扫描仪进行捐赠,同车搭载的还有我们的新冠肺炎CT辅助诊断算法。天衍实验室还跟钟南山院士团队合作,建立联合实验室,目前这个实验室还在持续运作,研发新冠治疗和抗疫等类型工作。腾讯健康码小程序提供AI问诊、随访等服务,疫情期间有60多亿的调用。回到医疗领域,腾讯作为科技部新一代人工智能项目的重要参与者,在医疗影像的产品就是腾讯觅影,目前腾讯觅影已经研发肺炎筛查、宫颈癌筛查、新冠肺炎CT辅助诊断等多种工具。深度学习在影像诊断上的挑战过去两年我们做了很多落地的工作,也遇到了很多问题,并且开发了一些技术解决这些问题。本质上讲,影像诊断是一个计算机视觉问题,理想情况下应该把计算机视觉成熟技术搬过来就可以。但影像诊断有很多独特的问题:第一个挑战,数据量少。数据整个AI研发过程中最大的难题,其他领域通过爬虫、众包的方式可以获取大量已经标注的数据。这在医疗领域就非常困难,首先像核磁、CT等特定部位数据量和来源非常少,而且这些数据中往往还存在大量噪音。此外数据标注过程也比较困难,医疗数据的标注往往需要十年以上行业经验的医生才能完成。第二个挑战,算法跨中心泛化能力差。AI产品在研发中,通常都是和医院做深度捆绑,医院里面所有数据进行交叉验证,医院可能得到比较好的结果,甚至达到95%的准确率。医院研究出来的算法,医院,就会出现模型准确度急剧下降,医院的数据做比对就可以发现相差非常大,里面可能是因为设备的差异,不同设备使用不同的扫描参数,甚至疾病也存在差异,医院重症病人较多,医院轻症病人较多。第三个挑战,准确度要求高。医疗是一个严谨的场景,所有诊断建议可能会对病人健康产生直接的影响。我今天会分享前面两个问题的解决途径,第一个就是采用小样学习技术解决缺乏训练样本问题;第二个是采用域自适应的方法提高算法的泛化能力。MedD——构造D医学影像的ImageNet首先分享几个我们最近做的工作,第一个是MedD:构造D医学影像的ImageNet。目前,小样本学习比较成熟的技术就是迁移学习。迁移学习就是将某个任务上训练好的模型迁移到另一个任务,小样本迁移学习则是源域已经有大量训练样本,而目标域只有少量样本的情况。以这个图像为例,假设要开发一个老虎识别图像算法,但因为老虎是珍稀动物,我们接触老虎的概率很低,所以训练集里面就缺少老虎不同角度的图片。但跟老虎很像的一个动物是橘猫,橘猫在各个场景下都可以得到海量的图片,所以就可以在橘猫的训练集上进行训练,之后通过微调就可以满足识别老虎,这就是典型的迁移学习案例。迁移学习在医学影像上也有很好的应用场景,例如CT、MR等影像都是三维图像,而lmageNet预训练的模型都是二维图像,根本无法识别三维图像。而如果把三维图形都转化为二维图像识别,就会丢失很多信息,这在医疗是不允许的。所以只能通过某种方法构造或预训练另一种直接识别三维图像的模型。但实际二维影像数据也不多,我们只能聚少成多,一点点把二维影像数据积累起来,把小样本聚集起来成为大样本。在这个过程中,医疗影像领域就有一个特别好的助推,就是每年大量的竞赛,每次竞赛都会公开数据集。数据集里面还都是经过医生投票,得到金标准的数据,甚至有的网站集合了所有公开竞赛的数据,现在就有多个竞赛数据集,还在一直增长。因为实验室更