视觉是人类强大的感知方式,它为人们提供了大量的关于周围环境的信息,使人们能够与周围环境进行有效的交互。据统计,80%以上的人类从外部接收到的信息是通过视觉获得的,50%的人类大脑皮层参与到视觉功能运行中。
视觉对大多数动物来说具有至关重要的意义。李飞飞是一位的计算机视觉学者,他描述了基本的动物眼睛、视力和视力。在寒武纪生命大爆发之前,地球上的生物物种很少,都生活在水中,被动获得食物。在寒武纪生命大爆发阶段,新的物种突然增加,生物物种在短短的1000万年内增加了数十万次。寒武纪生命大爆发的原因至今尚不被认可,但其中一个观点是,这与视觉有很大关系。牛津大学生物学家安德帕克发现,三叶虫在5.4亿年前通过研究生物化石(如下图所示)进化了眼睛。随着捕食者和捕食者之间复杂行为的进化,动物在有了视觉后可以看到食物,然后开始主动捕食,这使得动物种类不断增加。因此,许多科学家认为,生命大爆发始于动物获得视觉后的生存过程,这在生物进化过程中非常重要。
有许多有趣的视觉发现,例如螳螂虾的眼睛可以探测到偏振光。人类的眼睛和普通的摄像头只能感受到光的强度信息,而不能探测到光的偏振信息。澳大利亚昆士兰大学的研究人员发现,螳螂虾的复眼可以探测到偏振光。根据生物医学和光学的理论知识,生物组织的特征与偏振信息有关,因此螳螂虾的眼睛是因此,螳螂虾的眼睛可以诊断出生物组织的病变。青蛙的眼睛只能看到动态场景,狗对颜色信息的分辨率很低。
那生物视觉功能介绍后,什么是机器视觉呢?
机器视觉是机器(通常指的是数字计算机)对图像进行自动化处理并上报图像是什么的过程,也就是来识别图像中的内容,如自动识别目标。
机器视觉觉传感器、高速图像采集系统视觉传感器、高速图像采集系统和特殊图像处理系统等组成。
根据大卫A.Forth和JeanPonce的定义,计算机视觉是一种借助几何图形、物理学和学习理论来建立模型的工作,从而利用统计学的方法来处理数据。它是指通过对每个像素值进行简单的推理,在彻底了解相机性能和物理成像过程的基础上,将图像中可能获得的多幅信息综合成一个相互关联的整体,确定像素之间的联系,以便相互分离,或者推断出一些形状信息,然后使用几何信息或概率统计来识别物体。
考虑到系统的输入和输出模式,机器视觉系统的输入是一个图像或图像序列,输出是一个描述。此外,机器视觉由两部分组成:基于这些特征的特征测量和模式识别。
机器视觉和图像处理是有区别的。图像处理的目的是使图像处理后变好,图像处理系统的输出仍是图像,机器视觉系统的输出是与图像内容相关的信息。图像处理可分为低级图像处理、中级图像处理和图像处理,处理内容包括图像增强、图像编码、图像压缩、图像恢复和重建等。
01
发展机器视觉。
为机器视觉从70年代到现在开始发展过程中的一部分主题,包括机器视觉发展初期(70年代)的数像处理和积木世界、80年代的卡尔曼滤波、正则化、90年代的图像分割、基于统计的图像处理、21世纪计算摄像和机器视觉中的深度学习等。
1.70年代,20世纪。
机器视觉始于20世纪70年代初,被认为是人类智能模拟和赋予机器人智能行为的感知组成部分。当时,人工智能和机器人的一些早期研究人员(如麻省理工大学、斯坦福大学、卡内基·梅隆大学)认为,解决视觉输入问题应该是解决高层推理、规划等更难的问题的过程中的一个简单步骤。比如,1966年,麻省理工大学的马路米信让他的本科生Geraldjaysssman在暑假期间将相机连接到电脑上,让电脑描述他所看到的东西。现在,大家都知道,这些看似简单的问题其实并不好解决。
数像处理出现在20世纪60年代年代。与现有的数字图像处理领域不同,机器视觉预期可以从图像中恢复实物的三维结构,从而获得完整的场景理解。早期的场景理解尝试包括从二维线条的拓扑结构中提取物体(即积木世界)的边缘,并推断其三维结构。当时,一些学者提出了一些线条标记算法,此外,边缘检测也是一个活跃的研究领域。
上世纪70年代,人们还研究了物体的三维建模。Barrow,Tenenbaum和Marrr提出了一种方法来理解阴影变化的方法,并通过表面朝向和阴影来恢复三维结构。当时,还有一些更定量的机器视觉方法,包括基于特征的三维视觉对应算法和基于亮度的光流(OPTicalflow)算法,同时也开始研究恢复三维结构和相机运动的工作。
此外,DavidMarr针对(视觉)信息处理系统avidMarr还特别介绍:
1)计算理论:计算(任务)的目的是什么?有哪些约束是针对这个问题已知或可以施加的?
2)表达式和算法:如何表达输入、输出和中间信息?计算预期结果的算法是什么?
3)硬件实现:如何将表达式和算法映射到实际的硬件上,即生物视觉系统或特殊的硅胶片上?相反,如何使用硬件的限制来指导表达式和算法的选择?这个问题再次变得非常重要,因为计算能力的需求日益增长。
2.80年代,20世纪。
20世纪80年代,图像金字塔和尺度空间在20世纪80年代末开始被广泛用于从粗到精的相应点搜索,图像金字塔开始被一些中小波变换所取代。
从X到形状的方法出现在三维视觉重建中,包括从阴影到形状,从光度三维视觉到形状,从纹理到形状,从焦点到形状。在此期间,探索更准确的边缘和轮廓检测方法是一个活跃的研究领域,包括Snake模型等动态演变轮廓跟踪器的引入。如果将X到形状和边缘检测算法作为一个可变分数优化问题来处理立体视觉和光流,则可以用相同的数学框架来统一描述,并且可以使用正则化的方法来增加鲁棒性。此外,卡尔曼滤波器和三维数据处理20世纪90年代仍然是一个非常活跃的研究领域。
三、九十年代,二十世纪。
视觉的发展状况在20世纪90年代如下:
1)关于使用投影不变量进行识别的研究显示出爆炸性增长。这种方法可以有效地用于从移动到结构的问题。初,许多研究研究表明,投影重建问题不需要相机校准结果。与此同时,一些人提出了一种利用因素分解方法有效地解决近似正交投影问题的方法。后来,这种方法扩展到视觉投影的情况。这一领域开始采用全球优化法,后来被认为与摄影测量中常用的光束平差法有关。
2)精细测量使用颜色和亮度,并将其与物理模型结合起来,这些模型具有准确的辐射传递和形成彩色图像。这项工作始于20世纪80年代,构成了一个子领域,称为基于物理的视觉。
3)不断改进光流方法。
四、与算法相对应的稠立体视觉也取得了许多进展。
联系电话:150-2003-5767
企业邮箱:qdhaoke@163.com
公司地址:青岛城阳区春阳路119号国家
质量基础设施基地1号楼1007