双子塔首页

返回首页 微信
微信
手机版
手机版

美国高校开源迄今为止最大新冠肺炎CT数据集_百人斗牛牛

2020-04-03 新闻来源:双子塔首页 围观:65
电脑广告
手机广告
【游戏百人牛牛怎么玩】【百人牛牛官网】【百人斗牛牛】

新智元报导

编辑:元子、白峰

胸部计算机断层扫描(CT)图象在对新冠肺炎(COVID-19)供应准确、疾速、低价的筛查和检测方面很有远景。

在本文中,研讨者构建了一个开源的COVID-CT数据集,个中包含275个COVID-19检测呈阳性的CT图象,有助于运用深度进修要领剖析病人的CT图象并展望其是不是得了新冠的相干研讨和生长。

研讨者在该数据集上练习了一个深度卷积神经收集,F1值到达0.85,这个结果到达了研讨团队的期待,但仍需进一步革新。

相干数据和代码:

https://github.com/UCSD-AI4H/COVID-CT

核酸检测的最大问题:速度慢且稀缺,追不上新冠肺炎的流传速度

停止2020年3月30日,在全球范围内已有775306人感染新冠肺炎,37083人殒命。对此疾病检测的低效和缺少成为掌握其流传的重要停滞。

现在的检测重要基于逆转录聚合酶链反应(RT-PCR),须要4到6个小时才取得结果。与新冠肺炎恐怖的流传速度比拟,这远不够快。除了效力低下以外,RT-PCR检测试剂盒也异常缺乏。

这促使研讨团队去研讨替换的检测体式格局。这些体式格局大概更快,比RT-PCR廉价,更轻易取得,但与RT-PCR一样准确。在浩瀚大概性中,研讨团队对CT图象特别感兴致。

有几篇著作研讨了CT图象在挑选和检测新冠肺炎时的结果,结果鼓舞人心。但是,出于对隐私的庇护,这些研讨中所运用的CT图象并不会公之于众,这极大地障碍了基于CT图象的精准检测新冠肺炎先进人工智能要领的研发。

构建COVID-CT数据集,练习深度进修模子诊断新冠肺炎

为了处理这个问题,研讨团队构建了一个COVID-CT数据集,个中包含275个新冠肺炎检测呈阳性的CT图象,并向民众开放,以助于基于CT图象的新冠肺炎检测的研发。

研讨团队从760个关于新冠肺炎的medRxiv和bioRxiv预印本中提取了 CT图象,并经由过程浏览这些图象的标题人工挑选出具有新冠肺炎临床病症的图象。基于183个新冠肺炎 CT图象和146个非新冠肺炎 CT图象,研讨团队练习了一个深度进修模子,以展望一个CT图象是不是呈新冠肺炎阳性。

在35个新冠肺炎 CT图象和34个非新冠肺炎 CT图象长举行了测试,研讨团队的模子F1值为0.85。结果表明,CT扫描有望用于挑选和检测新冠肺炎,但是还须要更先进的要领来进一步进步准确性。

确诊新冠肺炎的患者入院时的CT图象。

A,2020年2月2日,一位39岁男性的胸部CT扫描结果,显现双侧毛玻璃浑浊。

B,2020年2月6日,一位45岁男性的胸部CT扫描结果,显现双侧毛玻璃浑浊。

C,2020年1月27日,一位48岁男性(在治疗后第9天出院)的胸部CT扫描结果,显现斑片状暗影。

D,2020年1月23日,一位34岁男性(在治疗后第11天出院)的胸部CT扫描结果,显现斑片状暗影。

图1:关于包含多个CT子图象的图象,研讨团队将其手动拆分为单个CT图象。

怎样建立数据集

在本节中,研讨团队形貌了怎样构建COVID-CT数据集。研讨团队起首收集了760个于1月19日 至3月25日时期在medRxiv1和bioRxiv2上宣布的的关于新冠肺炎的预印本。

这些预印本中有很多报告了新冠患者病例而且个中一些展现了患者的CT图象。

这些 CT图象附有形貌其临床病症的标题。研讨团队运用了PyMuPDF3提取预印本PDF文件的底层构造信息并定位到一切嵌入的图表。这些图表的质量(包含分辨率,大小等)多数保留无缺。

【百人牛牛棋牌游戏】【手机百人牛牛】【百人牛牛大富豪】

依据构造信息,研讨团队还识别出一切图表的标题。基于提取的图表和标题,研讨团队起首手动选出一切CT扫描图象。

然后关于每一个CT图象,浏览其对应的标题从而推断它对新冠肺炎是不是呈阳性。假如没法经由过程标题推断,则在预印本中找到剖析此图的笔墨以做出决议。关于包含多个CT子图象的图象,研讨团队将其手动拆分为单个CT图象,如图1所示。

末了,研讨团队取得了27个CT扫描图象,标记为新冠肺炎阳性。这些图象大小差别,最小,均匀和最大高度分别为153、491和1853;最小,均匀和最大宽度分别为124、383和1485。这些扫描来自143例患者。图2 显现了新冠肺炎CT扫描图象的一些示例。

图2:新冠肺炎阳性的CT扫描图象示例

两种体式格局:迁徙进修和数据扩大

研讨团队基于这个数据集开发了一个基线要领,愿望有兴致的学者可以对其举行基准测试。

只管研讨团队所运用的关于新冠肺炎的CT图象数据集是现在最大的公然可运用的CT图象数据集,但是它照旧较难到达练习模子所需的数据量。

由于在云云小的数据集上练习深度进修模子非常轻易致使过分拟合:模子在练习数据上表现优越,但是在测试数据上泛化不抱负。因而,研讨团队采用了两种差别的要领来处理这个问题:迁徙进修和数据扩大。

个中,迁徙进修的目标是应用来自相干范畴的大批数据来辅佐模子的练习与进修。详细来说,研讨团队运用大批的胸部X光图象来预先练习一个深度卷积神经收集,然后在COVID-CT数据集上对练习好的收集举行微调。

数据扩大的目标是组合近似准确的图象-标签组,比方,在大多数组合的图象标签组中,标签是对图象的准确解释。

迁徙进修

为了处理练习数据不足的问题,研讨团队采用了迁徙进修的要领。详细来说,研讨团队运用NIH宣布的ChestX-ray14 数据集来预练习DenseNet,然后在COVID-CT数据集上对预练习后的DenseNet举行微调。

数据扩大

另一种处理数据不足的要领是数据扩大:即从有限的练习数据中,建立新的图象-标签组,并将合成后的组添加到底本的练习集合。在建立新的组时,研讨团队采用了随机仿射变更、随机裁剪和翻转来扩大每一个练习图象。随机仿射变更包含平移和扭转(角度依次为5,15,25)。

实验设计以及结果

研讨团队收集了195个检测新冠肺炎呈阴性的CT扫描数据,来练习一个二分类模子用于展望一个CT图象是新冠阳性照样阴性。

个中,研讨团队依据患者数据将其分为练习集,磨练集和测试集,图表1总结了每一个数据集合新冠阳性和新冠阴性图象的数目,每一个CT图象的大小都调解为224*224,并经由过程考证集对超参数举行调优。

再者,经由过程运用进修率为0.0001,余弦调理和最小批处理大小为4的Adam,研讨团队对收集合的权重参数举行了优化。末了,研讨团队运用五个目标来评价研讨团队的要领:(1)准确性; (2)精度; (3)召回率; (4)F1指数; (5)ROC曲线面积(AUC)。关于这些目标,越高越好。

上图展现了这个基线要领的准确度、精密度、召回率、F1指数和AUC。只管精度较高,但是召回率的结果并不令人满意,因而,须要运用更先进的要领来进步召回率。

总结

研讨团队建立了一个关于新冠肺炎的公然CT扫描数据集,来增进经由过程读取CT图象进而挑选和检测新冠肺炎患者的AI手艺的生长。

此数据集包含275个CT扫描结果为阳性的新冠肺炎患者的CT图象。

研讨团队运用该数据集练习了一个深度进修模子,并取得了0.85的F1值。下一步,研讨团队将继承革新要领以到达更好的精度。

论文链接:

https://arxiv.org/abs/2003.13865

【捕鱼百人牛牛】【百人牛牛大富豪】【百人牛牛棋牌游戏】
文章底部电脑广告
手机广告位-内容正文底部

相关文章