本文是UCLA教授朱松纯的见解,我翻译下作为见解,尽管以后不一定做这些东西,但我觉得这些道理还是有价值的。
-
我们如何知道我们是不是在以错误的方式做研究? 视觉问题是一个在现代科学以及工程上一个非常具有挑战性和潜力的问题,因为它非常复杂并且包罗万象。对于如此复杂的一个问题,我们必须十分谨慎地选择一个长期有效的解决方案以免走入一个死胡同中。人们喜欢享受能够感觉到的进程,但实际地研究过程就回事十分枯燥无味的在普通人的眼中。
-
视觉问题是一个可以用机器学习来解决的分类问题吗? 经常有些学生说:视觉问题是不是仅仅只是机器学习地应用而已,他们经常是这么觉得。如果是这样的话,那么对于视觉问题的研究者来说,他们的任务仅仅只是设计好的特征而已就可以了。这个问题真的是对视觉问题的侮辱,这反映了对与视觉问题的误解并将其简单的划分为分类问题。这对于我来说毫不奇怪,因为现在的年轻一代不仅不知道Ulf Genander(模式理论之父)同时也不知道David Marr(计算机视觉之父)。打个比方来说,机器学习的方法就好像是三千年来中国中国中药临床经验总结出来的方法。古代的人们由于对于现代医学缺乏足够的认知,他们往往尝试不同的药材组合,就像机器学习的研究者尝试不同的特征。这些成分通过不同的权重被混合在一起,然后通过煎煮最后变成一味中药,这是一个迭代回归的过程。据信这些药可以治疗一切疾病包括癌症,禽流感等等,而不需要理解这些药的生物作用或者相应的病理机制。所有你需要做的仅仅是找到正确的成分然后以合适的比例把它们混合在一起。理论上来说,这是现实可行的,就像机器学习保证可以解决所有问题如果机器学习能够找到足够的特征和例子。但是问题是:组成成分的范围如此之广,我们如何才能有效地找到合适的组成成分呢?对于视觉问题,我们需要研究图像的复杂的结构,以及丰富的空间和他们的组成部分,还有各种各样的模型和代表。
-
为什么我们需要忍受不同风格的视觉问题? 视觉问题中的方法论可以概括成三个部分:Hack, Math,Stat。Hacks是一种启发式的方法,或者是某种方法在某个问题可以起到作用,但是我们无法分辨出它到底在哪其作用。Math恰恰相反,它告诉我们在某种特定的条件下,事情可以在某种性能的保证下进行分析,但是这些条件经常是有限的,所以难以应用到现实世界中的通用场景中。Stat是一个回归过程。通过很多的参数,你最终可以拟合任何的数据但是缺乏足够的物理解释。所以这三者是不同等级的解释或者模型。
-
如果你不能解决一个简单的问题,那么你就必须要解决一个复杂的问题! 简化论是现代科学中很多领域中一个非常受欢迎的研究策略。经常说一个问题你可以把它分成几个小的组成部分或者一个复杂的系统是由几个不同的组成部分组成而来的。这些方法轮在十九世纪八十年代被一些视觉研究者所实践,比如边缘检测,分割等等。但是人们发现仅仅是边缘检测这样最简单的问题都不能够很好的解决,因为边缘的定义取决不同等级的任务需求,即使是人类如果没有特定的任务等级也无法决定是否存在边缘。不象物理学家可以选择一个给定的规模或者现象来进行研究,计算机视觉研究者发现他们自己非常的不幸:每一个简单的图像对于不同的等级包含了很多的模式以及任务。下面的表格包含了一系列我们需要解决的问题对于理解一幅图像来说。