日期
09/02
2020
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

深度学习算法使用基于密度的群体计数来追踪企鹅数量
收藏
2020-09-02 10:14:36来源: 中国机器视觉网

   美国数据科学咨询公司Gramener与由微软运营的AI for Earth计划合作,创建基于深度学习的视觉系统,用于分析来自南极洲相机陷阱的图像。该解决方案需要经过训练的卷积神经网络(CNN),以根据基于密度的群体计数技术进行种群计数估计(见图1)。

图1种群计数算法可预测企鹅的存在预测图(右)的准确性与地面真实图像(左)的比较

   Gramener公司联合创始人兼分析负责人Ganes Kesari表示,Gramener公司成立于2010年,可生成具有数百、数千个或数百万个定期可更新数据点的数据故事或可视化,以用新数据刷新可视化。虽然Gramener公司已为商业情报部门、网络安全公司和政治科学家制作了数据故事,但该公司也展示了其使用人工智能(AI)来实现社会公益的能力。

   微软的AI for Earth计划部分赞助了这项工作,AI for Earth计划通过一系列基金和技术资源,支持使用AI解决环境挑战。动物保护工作,尤其从AI和计算机视觉的应用、到自动化动物种群计数的挑战中受益匪浅。随时间推移而增加或减少的种群数量,可以公平地衡量保护工作的成败。

   Gramener公司通过这种合作关系开发了基于Web的AI解决方案,用于监控美国华盛顿州Nisqually河中的鲑鱼数量。相机陷阱是通过运动激活的相机,设置在河流的狭窄部分,捕获游过相机的鱼的图像。过去,人类研究人员会审查图像,以确定相机捕获的鲑鱼数量。现在,人工智能解决方案可以筛查河道相机陷阱的画面,以识别和区分12种不同的鲑鱼。

   当图像包含数百只动物而不是一只或只有几只动物时,所需的AI模型的复杂性将显著增加。种群照片面临着基于遮挡的挑战。比例变化,即图像中个体的大小相对于其距相机的距离,随着景深的增加而变得越明显。

   该问题解决方案的开端,始于2016年牛津大学工程科学系和俄罗斯科尔科沃科学技术研究院的研究人员撰写的Counting in The Wild一文。研究人员的实验使用的是通过Zooniverse公民科学家网站上的Penguin Watch项目注释的图像数据集。

   由牛津大学博士研究生Tom Hart创建的Penguin Watch项目,要求志愿者对在南极洲相机诱捕站拍摄的企鹅种群的图像进行注释,方法是在每只企鹅上放置一个点。撰写Counting in The Wild时,研究人员已经在过去三年的时间中,从40多个站点提取了超过50万张图像,图像的分辨率在100~600万像素之间。

   注释者在图像中每只企鹅上放置的点的大小不会改变,即使基于其与相机的距离,图像中企鹅的直径可能在约15~700个像素之间。图像注释越难,志愿者越容易少算,与假阳性相比,产生假阴性的频率更高。杂乱的图像(企鹅超过30只)特别容易丢失注释。

   其他错误来源还包括不同的相机放置位置,例如以低分辨率出现大量企鹅的宽镜头,或造成大量遮挡的放置位置。天气条件也可能使图像模糊,这对注释者提出了又一项挑战。

   所有这些问题加在一起,导致创建了噪声数据,供密度估算计算机视觉系统处理。研究人员设计了三种学习过程,可以帮助卷积神经网络解释这些嘈杂的数据。

   第一种过程结合了清楚的前景-背景分割,以帮助排除与单只企鹅位置的预测无关的图像区域。第二种过程将注释之间的空间变化(图像上注释点之间的空间),解释为与被注释对象的比例有关的提示。第三种过程使用计数变异性(来自不同注释者在同一幅图像上的计数差异),来教授模型如何估计局部不确定性,从而告知计算机视觉系统是否预测单只企鹅的存在(见图2)。

图2三步图像处理算法(右)解释由公民科学家注释的图像(左)

   实验使用了大约82000张较低拥挤程度和中/较低拥挤程度的企鹅图像。实验中使用的CNN基于VGG-16架构。有两个指标可以衡量测试的准确性:CNN产生与注释者相似的结果的程度,以及CNN对企鹅存在的不确定性(与注释者的不确定性相比)。如果CNN与注释者具有类似的不确定性,则表明该系统有效地复制了人工注释者的工作。

   CNN报告的计数与人工注释者相比,显示出良好的计数准确性。但研究人员得出结论,在涉及不确定性估计和使用众包点标记图像的情况下,还需要做更多的工作。

   美国罗格斯大学电气与计算机工程系的研究人员撰写了另一篇名为CNN-basedCascaded Multi-task Learning of High-level Prior and Density Estimation forCrowd Counting的论文,并于2017年发表,更直接地提到了Gramener公司的企鹅计数项目。

   在Counting in the Wild使用低密度种群场景进行自动种群计数的地方,罗格斯大学的研究人员担心高密度种群图像。再次,不均匀的尺度变化代表了该论文提出的主要挑战。可以同时分类种群计数和估计密度图的CNN级联网络,提供了解决方案。

   罗格斯大学开发的卷积神经网络的级联网络(顶部),同时计算人群数量(底部中间),并创建人群密度图(底部右侧)以估计人群数量。

   在这种方法中,模型学习通过密度对图像区域进行分类,从而创建热力图,图中密度较大的数量会显示为热,而个体的缺失显示凉。因为训练过程利用带注释的图像,所以该模型知道基本事实(图像中个体的实际数量),因此可以估算出在该特定图像的热力图的“热”部分中代表多少数量。

   例如,如果一张图像有十万人,则该热力图的热部分将包含更多个人,并且比只有两万人的热力图的热部分更热。训练后,该模型会计算任何图像中的个体数量,并同时绘制密度图,将计算结果组合到人口估计中。

   罗格斯大学研究的CNN在英伟达的GTXTITAN-X GPU上进行了六个小时的训练,使用Torch AI框架和Adam优化,并在两个数据集上进行了测试。ShanghaiTech数据集包含1198张带注释的图像,分为训练和测试数据集。UCF_ CC_50数据集包含50张带注释的图像,这些图像具有不同的分辨率和宽高比,人群密度也有很大差异。

   与使用其他三种自动人群计数方法在ShanghaiTech数据集上进行测试,以及使用其他五种方法在UCF_CC_50数据集上进行测试相比,所开发的CNN的错误率比测试中使用的任何其他系统都要低。罗格斯大学的研究,使得Gramener利用从Penguin Watch项目获得的数据进行企鹅计数项目成为可能。

   “原理和模型架构保持不变,”Gramener首席数据科学家Soumya Ranjan说,“只有数据改变。”

   Gramener的团队将PyTorch框架用于其CNN架构,并使用带有英伟达Tesla V100数据中心GPU的虚拟NC6 v3计算机,在MicrosoftAzure云上训练了该模型。训练历时三到四天,共200个纪元。

   尽管Gramener的模型仅提供估计值,但它可以使保护主义者监视南极企鹅数量,以发现数量的迅速变化,并迅速从Penguin Watch相机中获取洞察信息(见图4)。Gramener已经与微软AI for Earth合作开发了一款物种分类API,该API可以识别五千多种动植物物种,还可以使用相机陷阱API来探测和识别相机陷阱图像中的动物。这些API在微软AI for Earth网站上公开可用。

图4 具有遮挡和比例变化挑战的群体图像(左)和Gramener开发的系统做出的预测计数(右)

为你推荐