Tencent以此实验室想了,数据为重要职责

2019-12-12 08:50 来源:未知

原标题:提高AI深度学习效率|清除"暗"数据为首要任务

我们都知道人要保持充沛的精力,离不开食物、水等能量供给,只有保持充沛精力才会有力量去发现、去创造。

图片 1

同样,要想一个医疗AI像人类那样思考,成为医生的得力助手,就必须“喂”给它大量的数据,帮助它从中找出规律。

想要将某个领域的发展继续推进,有时候必须停下来看看现有的状况,进行策略性整理和分析,才能订出未来发展的大方向。医疗领域的发展也是如此,在医院收集的数十亿笔病例中,包括CT图、X光图、病理图等数子化医疗记录,我们为了要发展精准的医疗科技,近几年科学家希望能通过人工智能的技术在这些数据中找出核心关键。

而现在,医疗AI却面临“双重挑战”,一是缺乏训练样本,二是缺乏标注。

来自美国斯坦福大学(Stanford University)博士研究员Leon Bergen在TRANS Conference 2018论坛上表示,医疗机构现有的数据将会是未来数字医疗发展的重要资料库,我们通过计算机建模和实验来研究语言学方法,在语言分析过程中清除不相关的资料。拥有一个有效且完整的医疗数据库,必须先清除医疗资料库中的暗数据,才能进一步分析,并提供医疗人员正确的决策方向。

这两大挑战让深度学习严重“弹药不足”,由此衍生出的“小样本学习”问题一定程度上阻碍了AI医学影像的发展,难道就这样止步不前?这些问题到底该如何突破?

图片 2

图片 3

目前医疗护理流程图、医生诊断记录、放射科报告、肺部疾病报告的数字化医疗数据都可以透过AI进行分析。研究员Bergen表示,在进行数据分析之前,整理杂乱且无法直接使用的暗数据(Dark Data)是相当重要的一点。技术人员提供整理过的数据给AI系统进行深度学习,在这过程中包含了收集大量数据、清除暗数据、训练神经网络和通过网络内容进行分析。

在5月30日-6月2日的“中国医师协会第十三次放射医师年会”上,腾讯优图实验室医疗AI总监郑冶枫博士,在题为“深度学习在医学影像分析上的应用”的分享中,讲述了腾讯优图实验室通过迁移学习和计算机合成图像两大方法,突破医疗AI数据量不足,没有办法像传统机器学习那样用大数据进行喂哺的问题。

Bergan指出,在训练AI系统的深度学习过程中,研发人员必须不怕出错,在不断试验的过程当中,神经网络会依循每一次的结果改进,并给予不同以往的产出。研发人员必须评估神经网络产出的结果,并调整网络的学习数据。

图片 4

图片 5

郑冶枫博士在中国医师协会第十三次放射医师年会上做主题演讲

举例来说,当系统判断病患有67%的死亡率,数据人员就必须依照最后病患实际的存活状况来调整系统的数据设定。通过真实的结果与事先预测之间差异的反馈,才能不断提高之后的预测精准度。

腾讯优图实验室是腾讯顶级人工智能实验室之一,专注于在人脸、图像、视频、医疗影像等领域开展技术研究。腾讯首款将人工智能技术运用在医学领域的产品“腾讯觅影”,即是由腾讯医疗健康事业部牵头,优图实验室提供的算法支持。

以往数据似乎就是片段的资讯,然而现在图形数据已经可以透过强大的图形处理器(GPU),提供既快速又系统化的分析。不过在电脑断层扫描(CT)的分析上,有时候还会出现AI分析的结果与医生的判断有出入。此时,就必须比对神经网络、医生诊断和CT图片上的各种差异。

医疗AI面临“双重挑战”

图片 6

当前人工智能技术的迅猛发展,与强大的计算能力、合理的优化算法和高质量的大数据密切相关。要让机器像人类那样思考,成为医生的得力助手,就必须“喂”给它大量的数据,帮助它从中找出规律。但是,在医疗人工智能领域,这一切却没有这么简单。郑冶枫博士提到,近年来,深度学习在包括图像识别、游戏、语音识别、自然语言处理等方面取得了重大发展。但是,医疗AI的发展却面临“双重挑战”。

对于人工智能是否取代人类,Bergen 表示,许多评论都认为在未来几十年之内,AI很有机会在很多领域的分析胜过人类,但要完全取代人类还是有困难的!返回搜狐,查看更多

一是缺乏训练样本。郑冶枫博士表示,“深度学习的目标是尽量端对端,图像进去、结果出来,因而网络越来越大,越来越多层,需要的训练样本也越来越多。”但与自然场景下自然图像获取不同,医学影像的获取十分艰难。

责任编辑:

一方面,图像采集的“高门槛性”也制约着训练样本的获取。“医学影像采集需要专门的设备,有一些设备非常昂贵,比如CT和核磁。”

另一方面,疾病本身的特殊性也对算法工程师获取样本造成阻碍,郑冶枫博士表示,“对于一些罕见病种,能够找到的图像就只有几百张或者一千来张,因为每年的发病量就那么多。”

二是缺乏标注。郑冶枫博士介绍道,对于自然图像来讲,其标定相对容易,即便是普通人也能够直接标注。但医学影像不同,其标注需要行业顶尖的专业医生参与。“现实是,培养一个医生需要十年时间甚至很长,加上临床、科研任务重,做数据标注对于医生来说也是‘有心无力’。”

两大方法突破医疗AI小样本学习问题

针对这两大挑战,郑冶枫博士提出,有两种方法有助于解决这一问题:一是迁移学习;二是计算机合成图像,比如生成对抗网络。

迁移学习这个要如何理解呢?郑冶枫博士用了一个生动的比喻:“比如说一个人去森林里找老虎,但从来没有见过老虎,不知道老虎长什么样。但假如他可以把猫和狗、狐狸等其他动物区分开来,就可以先训练他去找猫,这就是预训练的过程。接下去,我们告诉对方:老虎就是黄色的猫放大100倍,从而达到‘找老虎’这个目的。”他强调,迁移学习非常适用于解决小样本的训练问题。

另一个方法则是计算机合成图像。通过影像跨模态转换,计算机合成图像能够有效补充训练样本,而生成对抗网络则让训练如虎添翼:一个网络生成图像,一个网络鉴别目标的真伪,把两个网络做一些联合训练。训练结束时,生成网络可以产生非常逼真的图像。

郑冶枫博士以肝癌为例,“有时候跨模态生成的图像会扭曲,会生成一些新的病灶,也可能遗漏一些病灶,为此,我们在研究过程中会加上各类限制,减少生成图像的失真。我们的算法很完美地保留了器官和病灶的形状,是在用非常真实的图像作为训练任务,通过这种方法,能够让准确率得到明显的提升。”

图片 7

“腾讯觅影”能精确定位3mm以上的微小肺结节,检出率≥95%

医疗AI逐步落地 提升诊断准确率和效率

通过迁移学习、计算机合成图像等方法,影像诊断领域的深度学习取得了显着进展。以肺结节检测为例,郑冶枫博士介绍道,目前肺结节检查方式主要是肺部CT,随着薄层低剂量CT的应用,图像数量的倍增、小结节显示率的提高及结节的定量测量等使得读片的难度显着增加,同时,繁重、枯燥的阅片工作使影像科医师的疲劳度增加,漏诊、误诊的风险也在增加。

人工智能的运用,使得这些问题逐步得到解决。经过不断地迭代和更新,“腾讯觅影”早期肺癌筛查AI系统采用了腾讯优图实验室的“端到端肺癌辅助诊断技术”,能够精准定位微小结节位置和辅助医生准确判断患者患有肺癌的风险。

预处理模块、检测与识别模块是这一系统的核心算法。前者利用肺部的三维分割和重建算法,可以处理不同CT成像设备在不同成像参数条件下产生的不同源数据。而后者采用了“深度学习领域最好的分割算法”——全卷积神经网络,可以实现早期肺结节检测和分割。

郑冶枫博士表示,全卷积神经网络有两部分,一部分是编码器,把图像不断卷积和下采样,最后压缩到低维空间,这是不同任务可以共享的。一部分是解码器,不断卷积和上采样,最后输出一个输入图像大小一样的分割结果,这部分是每个任务独有的。“我们预训练的编码器会把所有任务的图像都看一遍,因此训练得非常好。”

“把编码器训练好之后,就将其迁移到其它任务,如肺部分割和肺结节良恶性判断上。采用公开数据集,发现不仅仅分割可以做得很好,分类也可以做得很好。”郑冶枫博士强调,“在医疗AI上,技术方面大部分工作都差不多,最后的竞争还是在细节方面。”

比如在良恶性的判断上,腾讯提出了Med3D预训练模型,该模型采用多个公开竞赛数据集进行训练。通过选取三维医学影像进行图像分割任务,并对这些数据进行抓取、收集,预训练一个模型,能够大幅提高分割和分类的准确率,解决了大部分结节不活检,不知道良恶性的问题。”

目前,“腾讯觅影” 通过人工智能医学图像分析能力辅助医生阅片,已经能精确定位3mm以上的微小肺结节,检出率≥95%。同时,除早期肺癌外,“腾讯觅影”还能利用AI医学影像分析辅助临床医生筛查早期食管癌、眼底疾病、结直肠肿瘤、宫颈癌、乳腺肿瘤等疾病。

{"type":2,"value":"

TAG标签:
版权声明:本文由365bet手机版客户端发布于凰家评测,转载请注明出处:Tencent以此实验室想了,数据为重要职责