搜档网
当前位置:搜档网 › 眼动跟踪研究

眼动跟踪研究

眼动跟踪研究
眼动跟踪研究

用来研究眼动活动的结合基于特征和

基于模型思想的算法

Dongheng Li, David Winfield, Derrick J. Parkhurst

摘要:由于用户的注视点能极大的改善人机接口,则可以把眼动活动当作用户注意力状态的标志。将眼动活动整合成现在这种接口的障碍就是没有一种可用的,可靠的,低成本的,开源的眼动跟踪系统。为了给那些接口设计者提供这样一个系统,我们研发了一种基于特征和模型思想的混合算法并且提供了一个开源的软件包。我们将这种算法命名为Starburst。这种算法比单纯基于特征跟踪的算法更准确而且比单纯基于模型跟踪的算法更省时。当前能够将红外视频剪辑来跟踪眼动活动。这种视频可以用一个廉价的头盔式眼动仪来获取。这是一个可靠的研究并且指出该电子技术能够估计眼睛的位置,误差不超过一度。

关键词:眼动跟踪;头盔式眼动仪;算法;基于特征;

1 简介

眼动活动的使用能极大的改善人机接口的质量。应用眼动活动的人机接口有两种:在线接口和离线接口。在线接口允许用户利用眼动活动详细的控制接口[8]。比如,用户可以通过注视虚拟键盘上的按键来进行打字而不用使用传统的敲击键盘的方法[9]。这种技术也可以用在常用的接口中,比如用户可以在图形用户接口中注视一个图标来选择它,这样大大提高了速度[16]。

另一方面,离线的接口能监视用户眼动活动并且自动调整。例如,在视频传输和虚拟现实应用,可变分辨率显示技术能主动跟踪用户的眼睛并且提供一个关于凝视点的详细信息,同时省略了外围设备的细节[13,14]。

尽管眼动跟踪已经应用到一些研究系统和小型的产品中,但是眼动跟踪技术还没充分发挥它的潜力。尤为重要的是,眼动跟踪技术的许多方法已经应用了很多年。将这种技术整合成人机接口的首要障碍是这种系统要么容易被入侵,要么就是成本太高。最近,由于头盔式视频眼动仪逐渐缩小,眼动跟踪的被入侵性显著下降[15,1]。视频眼动跟踪移动技术也减少了入侵性[6,10],但是降低了系统的准确性。随着技术的不断发展,剩下的障碍就是成本。目前,有一些眼动跟踪系统已经投入市场,它们的价格大约5000到40000美元。值得注意的是,这些开销并不是由于硬件,因为在过去10年中高清数

码镜头的价钱已经下降了很多。然而,开销主要和软件相关,有时候也需要整合特殊的数码处理器来获得高速性能。

这种分析清楚的指明了,为了将眼动活动结合到平常的人机接口中,需要广泛的可用性,可靠性和高速眼动跟踪算法,而这种算法需要在普通电脑硬件的支持下完成。为了达到这个目的,我们发明了这个结合基于特征和模型思想的算法并且在一个开源包中使分布式系统得以实现。通过结合低成本的头盔式眼动仪[18],眼动跟踪技术很可能成为下一代人机接口。

2 问题描述

如上所述,眼动跟踪系统可以分为远程系统和头盔式系统。每一种系统都有其特有的优势。比如远程系统比头盔式系统不容易被入侵,但是却减少了准确性和灵活性。另一方面,我们开发了一种低成本的头盔式眼动仪[18]。这个眼动仪由两个CCD摄像头组成,它们绑定在一对安全眼镜上(如图1)。其中一个摄像头捕捉眼镜的图像,另一个捕捉场景的图像。两个摄像头是同步的并且以30赫兹的频率捕捉640×480像素。在本文中,我们的眼动跟踪算法处理的图像就是利用这种头盔式眼动仪所获得的。然而,这种算法也可以被应用到远程的视频捕捉系统。

眼动跟踪技术中主要使用两种图像处理方法,可见光谱成像和红外光谱成像[5]。可见光谱成像是一种被动的方式,通过捕捉眼睛的反射光。在这些图像中,通常情况下跟踪可见光谱图像最好的特征就是虹膜和巩膜之间的轮廓也叫角膜缘。眼球的三种最相关的特征是瞳孔——让光进入眼球的光圈,虹膜——控制瞳孔直径的有色肌肉群,眼白保护覆盖在眼球其他部分的纤维。可见光谱成像是很复杂的,因为环境中的光源是无法控制的,它包含许多镜面反射和漫反射成分。红外光谱成像通过使用一个用户无法感知的红外光控制来主动消除镜面反射。红外光谱成像的好处就是,瞳孔作为图像中最强的特征轮廓而不是角膜缘(如图1d)。巩膜和虹膜都能够反射红外光,而只有巩膜能反射可见光。跟踪瞳孔轮廓更具优势,因为瞳孔轮廓比角膜缘更小更尖锐。还有,由于它的大小,瞳孔更不容易被眼皮遮住。红外光谱成像也有缺点,那就是在白天不能用在户外,由于外界环境能清除红外线。在本文中,我们的算法主要使用红外光谱成像技术同时也拓展到可见光谱成像技术。

红外眼球跟踪通常使用亮瞳或暗瞳技术(如参考文献[10]中结合了亮瞳和暗瞳技术)。亮瞳技术通过在离摄像头光轴非常近的地方使用一个光源来照射眼球。由于眼球后部的照片反光特性而形成了一个瞳孔分明的明亮区域。暗瞳技术通过在远离光轴的地

方使用一个光源,这样瞳孔在图像中就是黑暗的区域,同时巩膜、虹膜和眼皮反射比较多的光。两种方法都是使用对照明光源的表面反射而使角膜(眼球最具光学特性的结构)可见。使用瞳孔中心到角膜反射点的向量比单独使用瞳孔中心的方法要可靠的多。这是由于向量对于头盔摄像头和光源的同时移动所造成的误差不敏感(参考下面的实用性研究)。本文中我们的算法主要以暗瞳技术为核心,同时也可以应用到亮瞳技术中。

图1 (a)和(b)头盔式眼动仪

(c)眼动仪获得的图像(d)用户右眼的图像

3 相关工作

眼动跟踪算法可以分为两种方法:基于特征和基于模型。基于特征的方法根据眼球的位置探测和定位图像特征。基于特征的方法有一个共性,那就是需要一个标准(比如一个阈值)来确定特征的存在。这个阈值应该是一个由用户自行确定的参数。跟踪特性在整个算法中有很大变化但是主要依靠亮度水平和亮度梯度。比如,应用暗瞳技术的红外成像,可以设置适当的亮度阈值来提取对应该区域的瞳孔。将瞳孔中心当做该区域的几何中心。在可见光谱成像中,亮度梯度可以用来检测角膜缘[21]。在红外光谱成像中,亮度梯度可以用来检测瞳孔中心[12]。这些特征点最后可以拟合成一个椭圆。

另一方面,基于模型的方法不能发掘详细的特征但是可以找到连续图像的最佳模型。例如,可以利用积分微分运算来寻找角膜缘和瞳孔边缘点的最佳拟合圆[3]或者椭圆

[11]。这种方法需要对模型的参数空间进行反复的搜索来寻找最大的圆边界或者椭圆的边界导数。基于特征的方法定义的特征标准不能应用到图像数据中,所以基于模型的方法能更准确的估计瞳孔中心的位置。但是这种方法需要搜索一个复杂的参数空间,这里面可能充满了位置的最小值。因此,没有对模型参数的一个初始估计,梯度技术就不能实现。由此可见,这种方法的准确性是以综合速度和灵活性为代价的。然而,在多重标准的图像处理方法[2]中结合基于模型的方法对于实时操作有很好的前景[5]。

4 Starburst算法

这部分阐述的是结合基于特征和基于模型思想的眼动跟踪算法,用这种算法来权衡在红外照射下的暗瞳技术的运行时间和准确性。该算法的目的是提取瞳孔中心和角膜反射点的位置来完成对视场图像的坐标转换。该算法从定位和去除图像中角膜反射点开始。然后反复使用基于特征技术来定位瞳孔边缘点。使用随机样本一致性范式来找到这些点的最佳拟合椭圆[4]。从基于特征的方法中提取的最佳适应参数来初始化对模型参数的搜索,以便计算椭圆参数。

4.1 去噪

根据第二章描述的低成本的头盔式眼动仪,我们需要先对图像进行去噪。我们通过应用标准偏差2个像素的5×5的高斯滤波器来实现去噪。利用标准化因子能够将直线一条条转化成前一帧图像的连续均值。在第i帧中的每一条直线l的这个因子C如下:

式中,I(i,l)是直线强度,β=0.2。注意,去噪技术是选择性的,当算法用来处理噪声小的图像时,可以省略去噪环节。

4.2 角膜反射的发掘,定位和移动

角膜反射点也就是眼球图像中最明亮的区域。通过二值法能够获取角膜反射点。但是每个观察者的阈值常量都不是最佳的。所以我们使用自适应的二值法在每一帧中定位角膜反射点。因为角膜延伸到大约角膜缘的位置,我们就将角膜反射点的搜索限制在宽度为h=150像素的正方形区域内(见讨论部分的参数值)。最大门限值是用来产生一个二值图像,仅取像素大于这个阈值的点作为角膜反射点。基本上最大的候选区域就是角膜反射区域,至于其他的反射区域都是很小的或者脱离了角膜范围,也有在图像边缘眼皮位置的。最大候选区和其它区域的均值之间的比例随着阈值的降低能够被计算出来。

首先,由于角膜反射区域比其它区域增长的快,所以这个比例会增大。角膜反射区域的强度沿着径向递减。一个较小的阈值一般会产生错误的候选区域。当错误候选区域更加显著并且角膜反射区域扩大的时候,比例就会下降。我们就认为这个时候产生最大比例的阈值为最佳的。角膜反射区域的位置就用自适应门限法,由最大区域的几何中心(x c,y c)确定。

角膜反射区域在图像中大致成圆形。角膜反射区域的大致大小可以由定位步骤中应用阈值的区域导出,这个区域不一定能完全包含角膜反射区域的整个轮廓。我们假设角膜反射的强度分布遵循一个二元高斯分布,这样来确定角膜的全反射。如果我们发现半径r在亮度衰减最大的地方是最大高斯衰减,那么我们就可以取2.5r的最大角膜反射来捕捉99%的角膜反射剖面。我们通过梯度来搜索合适的最小值从而确定r。

式中δ=1,I(r,x,y,θ)是由x,y,r确定的圆,圆心角为θ处的像素强度。r 使用下式来初始化,面积就是二值区域中像素的数目。该搜索快速收敛。

使用径向的内插法来移动角膜反射区域。首先,将角膜反射区域的中心像素设定成该区域边缘强度的均值。从中心到边缘中间的每个像素值都是由线性内插法来确定。该过程的流程如图5(比较a和b)。

4.3 瞳孔边缘检测

我们已经开发了一个新颖的基于特征的方法来检测瞳孔边缘。伪代码如图2所示。如果把其它的基于特征的方法应用到边缘检测或者整个眼球图像中,由于瞳孔边缘通常只占图像的一小部分,这些计算方法就显得有些浪费。与之相反,我们从一个最佳猜测的瞳孔中心射出的有限数量的光线中来检测边缘。这些光线从图3a中能看出来。利用暗瞳技术从红外照射成像中提取瞳孔轮廓,该方法充分利用了瞳孔轮廓的高对比度椭圆剖面。

图2 特征点检测方法

每一帧都有一个对瞳孔中心的最佳猜测位置。对于第一帧,通常将图像的中心作为猜测的瞳孔中心。后面的每一帧都来源于前一帧。在N=18时,从出发点呈放射状延伸的每一个Δ都是逐个像素独立估计的直到阈值超过φ=20。由于我们使用的暗瞳技术,只取正值(因为亮度沿着光线方向递增)。当超过阈值时,就不在沿着光线放下进行处理,特征点就定为该点。如果光线延伸到图像边缘,那么就不再定义特征点。图3a中是一系列候选特征点的选取。

对于每个候选特征点,上述的方法是循环进行的。但是光线的角度限定为初始点的正负50度。用这种方式限制返回光线的动机就是如果候选特征点正好是瞳孔中心(如图3b所示),返回光线会在瞳孔反方向产生额外的特征点,也在同一个椭圆上(也就是瞳孔轮廓)。但是,如果候选特征点不在瞳孔上(如图3c),这个过程将会产生不与任何一个椭圆一致的特征点。因此,该过程可能增加在瞳孔上的特征点与不在瞳孔轮廓上的特征点的比例。通过Δ定义的特征点更可能落在瞳孔轮廓上(由于这是个最明显的轮廓),返回光线的数目设置成5φ/Δ。已知光线的最小数量是5因为定义的特征点事由以下决定的Δ>=φ。

图3 特征检测(a)瞳孔边缘候选点检测瞳孔中心,其中有2个点到达了图像边缘为错误点(b)从每个瞳孔轮廓候选点发出光线来产生第二个候选点集

(c)不在瞳孔轮廓上的候选点显然不在一个椭圆拟合上

这种两步特征检测过程提高了该方法的健壮性。由于眼球在眼动活动中可能快速的从一个位置移到另一个位置,这样就产生了一个问题。对于在帧频较低时所获得的图像是很严重的一个问题。例如在图4a中产生的这种情况。因为初始设置的光线只能检测在瞳孔轮廓上的3个特征点,从这3个点返回的光线却能检测更多(如图4b)。这些特征点集在图4d中显示出来,并且在瞳孔轮廓上的点的数量明显多于不在瞳孔轮廓上的点。然而,这些特征点都偏向于初始点。尽管可以通过迭代将偏移减少,但是计算复杂度却成指数增长,这会是一个低效的策略。

综上,这些候选点就可以进行椭圆拟合,但是偏斜的点却会带来重大错误。为了排除这些偏斜点,只能通过对上述方法进行迭代。每一次迭代中,从上一次迭代中得到的所有特征点的平均值作为下一个起始点。在图4d中展示的红圈就是第二次迭代的初值。第二次迭代如图4e所示。图4f说明了中心位置是如何快速聚合到瞳孔中心的。当特征点变化小于d=10像素时候,迭代就停止。当初始假设很接近瞳孔中心的时候,例如在大部分帧中眼睛处于注视状态的时候,只有一次迭代就够了。当初始估计不是很好的时候,也仅需要很少的迭代次数直到收敛(小于5次),如果当迭代10次时候还没有收敛,那么有可能是发生了眨眼。当瞳孔不存在时,算法停止并且从下一帧开始。

图4 特征检测(a)初始点(黄圈)发射光线(蓝色线)来产生候选瞳孔点(绿叉)(b)和(c)候选点向初始点返回光线来产生更多的特征点(d)所有的特征点,红点为这些点的平均位置

(e)第二次迭代结果(f)每次迭代的起始点

4.4 椭圆拟合

由于已经找出了候选特征点集,算法下一步就是拟合最佳椭圆。其它算法一般是使用最小正方形拟合(见参考文献[20]),这样的话,在特征检测阶段产生的错误就会影响结果的准确性。如图5c所示的特征点,如果采用最小面积技术的椭圆拟合,结果如图5d。注意,一些不在瞳孔轮廓的特征点会是拟合达到一个不可接受的程度。

为了解决这个问题,我们应用随机采样一致性方法(RANSAC)[4]。由此可见,我们的算法中这事第一次使用RANSAC,而RANSAC经常应用到其它计算机视觉问题中(见参考文献[7])。当一个实验样本中有一定未知比例的外层值时,RANSAC是一种很好的模型拟合方法。内层值是建模机制产生的数据样本,但是外层值是由没有考虑到的机制产生的错误造成的。在我们的应用中,内层值是那些在瞳孔轮廓上的特征点,外层值是其它部分的点,比如在眼皮和眼球之间的位置的点。最小面积法使用所有可用的

数据进行拟合,因为它假设所有的样本都是内层值并且任何错误都是由测量误差引起。另一方面,RANSAC允许有外层值,它仅使用内层值的一个子集来进行拟合。详细的说,RANSAC是一个迭代过程,随机选择数据的子集,用每一个子集拟合一个模型,再选取一个与整体拟合最一致的模型作为结果。与这个模型相一致的数据子集就叫做一致性集合。

在一些情况下,我们的特征检测过程产生一些外层值(如图5e)但在其它算法中,外层值的数量会多的多(如图5f)。所以我们使用RANSAC范式对瞳孔轮廓进行椭圆拟合是最佳的。接下来的过程就是循环R次。首先,从特征点集中随机选取5个样本,这些样本包含拟合椭圆需要最少的点。在特征点坐标产生的圆锥特征矩阵上使用奇异值分解(SVD)来找出这5个点的最佳拟合椭圆。

如果椭圆的参数是虚的,椭圆中心在图像外或者椭圆长轴大于短轴的二倍,那么再重新抽取5个样本值直到不出现上述情况为止。那么就选出了拟合这个模型的特征点(也就是内层值的点)。内层值的点是那些到椭圆代数距离小于阈值T的样本点。这个阈值来源于特征点检测的错误概率模型。假设我们特征检测器的平均误差大约1像素并且这些错误符合零均值的高斯分布。因此,为了获以5%的概率获得这些内层值,这个阈值应该由自由度为1的卡方分布来获得[7]。计算结果为1.98像素。在R次循环之后,最大一致性集的模型就可以使用了。因为通常估计所有特征点的组合在计算上是不可行的,随机子集的选择必须保证至少一个仅包含正常值点。如果按下式计算,就能保证概率p=0.99。

式中ω是样本中内层点的比例。尽管ω不是一个前置值,它的下限由迭代中任何一个模型中内层点的最大值决定。因此R可以设一个较大的初值,然后使用方程3的迭代方法计算。经过一定数目的迭代之后,就会得到有最大一致性集的椭圆(如图5g)。

4.5 基于模型的优化

尽管RANSAC方法对许多眼动跟踪应用都有效,但是任何一个椭圆拟合都可以通过基于模型的优化来改进。我们通过下面的方程来获得椭圆参数a,b,x,y,α。

式中δ = 1,I(a,b,α,x,y,θ)是由a,b,x,y和α所确定的椭圆轮廓上像素的强度。这个搜索的初值就是RANSAC算法决定的椭圆参数。

图5 (a)去噪后的原始图像(b)移除角膜反射的图像(c)候选特征点(d)使用最小面积法进行的椭圆拟合(e)用RANSAC分开的内层点和外层点

(f)外层点多的另一个例子(g)仅利用内层点进行的最佳拟合

(h)利用基于模型思想的最佳拟合椭圆

4.6 坐标映射和校正

为了计算用户在视场图像中的凝视点,必须确定一个眼球位置和视场图像中的映射(瞳孔—角膜反射向量)。典型的眼动跟踪方法是通过一个校正过程来测量这个关系[17]。在校正过程中,用户需要看一系列标记点,这些点在视场图像中是已知的。当用户凝视每一个视场点s = (x s,y s,1)时,测量出眼球位置e = (x e,,y e,1)(也就是齐次坐标)。我们利用线性对立映射来产生这两个点集之间的映射。映射H是一个3×3的矩阵,有8个自由度。为了确定H,需要测量对应点产生的约束矩阵。每个对应点都能产生2个约束,因此4个对应点就足够确定标准的H了[7]。约束矩阵中的空值课由SVD 算出。一旦确定了映射H,每一帧中用户在视场图像中的凝视点就能用s=H e建立起来了。注意,我们使用3×3网格的校准点,一致的分布在视场图像中,用来确保对眼动活动的准确预测。在这种情况下,很多约束是已知的,同时SVD能产生映射H使错误代数距离最小。

5 算法验证

为了验证算法的性能,我们需要对眼动跟踪进行评估。像第二章描述的那样,从头盔式眼动仪中获取视频。我们3位作者都在笔记本电脑上看到了两个视频。用户头部固定观察9个标记的校正点,每个点分开大约60厘米。每个用户进行2次这样的校正。第二次的校正中,视场摄像头上物镜的狭窄视场(56度FOV)改为宽视场(111度FOV,)。这样做来鉴定非线性的镜头失真所导致的眼动跟踪质量下降。评定中使用的视频在网站(https://www.sodocs.net/doc/338976376.html,/openEyes)上可以看到。

表1中显示了第一次,第二次和第三次单独观察标定网格时的准确性估计。这个准确度是测量9个凝视点和实际位置之间距离差距的平均值。我们将使用瞳孔中心和瞳孔-角膜反射向量时的验证结果分开显示。注意的是,第一次观察网格点是用来产生所有预测的对应映射。

首先需要注意的是,当使用瞳孔角膜反射向量的时候错误率比单独使用瞳孔中心时要低。在只使用瞳孔中心算法时在校正凝视点之后错误率会增加。这是由于头盔移动所造成的结果。其次,无论选择怎样的物镜,错误的图形都是相似的,这就说明了非线性计算对其影响甚微。如果需要,我们可以使用标准图像处理技术移动每一帧中的径向畸变来改正它。

6 讨论

我们设计了这种结合基于特征和模型思想的算法来研究眼动跟踪。通过基于特征的自适应技术,我们能找到瞳孔中心和角膜反射点。然后通过RANSAC范式对特征点进行椭圆拟合,极大提高了准确度。最后基于模型的方法用来校验这种拟合。我们进行一系列研究,验证了我们的算法可以很好的处理由头盔式眼动仪获取的图像。我们仍然在不断探索这种算法的健壮性来适应其中的变量。比如,在我们研究中特征检测阈值是人为设定的,但是似乎没什么影响,只是需要为不同的用户设置不同的值。然而,对一个给定的眼动仪,阈值很可能需要调整。在特征检测过程中,我们不需要操作光线的数量,因此,以执行时间最小为代价,光线越多,系统的健壮性越强。我们现在正在探索在凝视点估计的质量上这些参数的影响。

我们目前的算法还可以不断改善。比如,我们不把角膜反射移出图像,那就会节省很多时间,在算法的其它步骤中角膜反射区域可以被忽略。我们的算法目前基本上都是独立处理图像,所以还有很大的改进空间(除了前一帧中预测的瞳孔中心用在下一帧中)。例如,我们可以通过使用卡尔曼滤波器来预测瞳孔的位置,这样也可以改善算法。但是,我们的硬件很难实现这种好的技术,由于我们的图像有很低的帧频和很高的眼动

速度。我们也在致力于制动校准。目前,校正过程需要人为输入一些指示物来定位视场中的校正点,这是一项令人厌烦的工作。我们希望可以使用图像处理技术来自动的标定视场图像中的校正点。

我们的研究目的是发明一种可靠的眼动跟踪算法,这种算法能够在一般的硬件环境下运行并可以推广到日常的人机交互中。实现这个目标的主要障碍就是缺乏免费的眼动跟踪软件。我们使用GNU通用许可证,将我们的算法以开源软件包的形式发布。这个软件可以在我们的网站(https://www.sodocs.net/doc/338976376.html,/openEyes)上下载。我们希望结合开源眼动跟踪软件和低成本的眼动仪[1,15,18],接口设计者能深入的探索眼动活动来改善接口。这将会增加在下一代人机接口中眼动跟踪的作用。

7 致谢

我们要感谢Jason Babcock,感谢他给我们提供了头盔式眼动仪。同时也感谢应用科学实验室对我们工作的支持。

参考文献:(略)

营销分析中5个源于眼动追踪热图的启发

营销分析中5个源于眼动追踪热图的启发 如果你网站的用户体验不佳,你很有可能失掉很多转化的机会 在帮助网站运营人员和设计师们了解用户如何浏览网站方面,眼动追踪的应用非常有效。许多权威的专家和机构已经在这一领域研究了数十年。 下面是关于眼动追踪应用的五个结论,可能会对你的网站运营工作有一些帮助哦 :) 1.用户的行为模式是可以被预测的 2006年,研究者Jakob Nielsen发现:大体而言,我们浏览网页的过程都是一个可以预测的模式。 用户会在几秒钟内,以一个F形状的观测模式,快速浏览完网页的主要内容。 ●首先,他们从左到右浏览网页; ●然后,他们回到页面左侧,在更靠下的位置再次开始向右浏览; ●最后,他们还会回到左侧,并开始向下滚动页面。 Nielsen在三种类型的网站上发现了这种F型趋势,关于我们页面、电商和搜索引擎结果页面。他发现F图案是普遍存在的—— “就好像是个精心设定好的用户浏览行为”

技巧打包:既然知道用户会以F型的模式浏览你的网站,那就确保你最重要的内容和召唤按钮(Call-to-action:页面上醒目突出的按钮,用于“召唤”用户点击这个按钮,比如“立即注册”按钮)都遵循这个浏览所经过的路径来放置。 注意下面这个登录页是如何利用F型模式的。一个网站用户的注意力会跟随红色箭头的轨迹,最终到达免费试用报名处。

2. “F”型的浏览模式也会失效 如果对比带有具体目标的搜索和漫无目的的浏览这两种访问行为的话,你会发现它们有着完全不同的浏览模式。 “在漫无目的的浏览情况下,用户从左到右逐行地查阅所有的内容,直至滚动到达页面底部。而在搜索情况下,他们的眼动轨迹非常不规律,似乎直接跳过了整个页面”

【CN110634356A】一种基于眼动追踪技术训练阅读能力的方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910296311.X (22)申请日 2019.04.13 (71)申请人 北京一目了然教育科技有限公司 地址 100088 北京市海淀区苏州街3号503- 61 (72)发明人 王志志 王利刚  (51)Int.Cl. G09B 17/00(2006.01) G09B 17/04(2006.01) (54)发明名称一种基于眼动追踪技术训练阅读能力的方法(57)摘要本发明涉及一种基于眼动追踪技术训练阅读能力的方法,步骤如下;步骤如下;S10、阅读材料呈现;S20、捕捉信息;S30、呈现阅读报告;S40、学生根据阅读报告的反馈。该基于眼动追踪技术训练阅读能力的方法与现有技术相比,本发明的有益效果是:使用眼动技术给出学生阅读时的眼动轨迹图,让学生直观地看到自己阅读时眼睛是以什么样的速度运动的,在哪些词语、句子上注视的时间长,便于对后期得到明确的阅读反馈,形成了阅读速度、回视次数、丢失时间、信息抓取数、加工深度指标,用数字化的指标指导学生阅读,有利于对学生的阅读形成有效而又合理的反馈,使得学生能够明确的了解自己阅读之后带来 的收益。权利要求书1页 说明书3页 附图1页CN 110634356 A 2019.12.31 C N 110634356 A

1.一种基于眼动追踪技术训练阅读能力的方法,其特征在于:步骤如下; S10、阅读材料呈现;S20、捕捉信息;S30、呈现阅读报告;S40、学生根据阅读报告的反馈。 2.根据权利要求1所述的方法,其特征在于:所述步骤S10、阅读材料呈现:向学生呈现与他年级相对应的阅读材料,阅读材料字数约为800-1500字。 3.根据权利要求1所述的方法,其特征在于:所述步骤S20、捕捉信息:在学生阅读时捕捉孩子的眼动信息。 4.根据权利要求1所述的方法,其特征在于:所述步骤S30、呈现阅读报告:阅读报告中会呈现学生阅读该文时的眼动轨迹图,让学生直观地看到自己阅读时眼睛是以什么样的速度运动的,在哪些词语、句子上注视的时间长,另外报告中还会呈现阅读速度、回视次数、丢失时间、信息抓取数、加工深度指标; a.阅读速度是在一定的单位时间内所能阅读的字数。阅读速度与阅读目的、读物性质、难易程度,以及阅读者已有的知识水平、阅读技能、理解能力有密切关系; b.回视次数是指注视点退回到已知区域的次数; c.丢失时间是指在阅读过程中,被试注视离开阅读材料的时间; d.信息抓取金币数、加工深度并不是针对整篇文章的指标,而是针对关键信息区的指标,关键信息区是由教育经验丰富的语文老师勾画的,主要包括中心句、主旨句、使用修辞手法的句子、 成语等; Ti为关键区内第i个注视点对 应的时间,i=1、2、3‥‥,最后呈现出的效果是随着i的增加,也就是随着学生的阅读,信息 抓取金币数在不断增加; e.当眼动轨迹图读到关键区时,会产生金币箱打开的效果,同时播放关键区解析的音频。解析示例为“成语——积累与写作运用能力——这个成语是用来形容学问广博,无所不知的。用在这里,体现了“我”小小年纪便阅书无数,可以称得上的是位阅读小达人!”。 5.根据权利要求1所述的方法,其特征在于:所述步骤S40、学生根据阅读报告的反馈了解自己的阅读的情况,通过不断的练习和反馈,形成正向强化,从而提高阅读速度和信息抓取金币数。 权 利 要 求 书1/1页2CN 110634356 A

眼动跟踪研究

用来研究眼动活动的结合基于特征和 基于模型思想的算法 Dongheng Li, David Winfield, Derrick J. Parkhurst 摘要:由于用户的注视点能极大的改善人机接口,则可以把眼动活动当作用户注意力状态的标志。将眼动活动整合成现在这种接口的障碍就是没有一种可用的,可靠的,低成本的,开源的眼动跟踪系统。为了给那些接口设计者提供这样一个系统,我们研发了一种基于特征和模型思想的混合算法并且提供了一个开源的软件包。我们将这种算法命名为Starburst。这种算法比单纯基于特征跟踪的算法更准确而且比单纯基于模型跟踪的算法更省时。当前能够将红外视频剪辑来跟踪眼动活动。这种视频可以用一个廉价的头盔式眼动仪来获取。这是一个可靠的研究并且指出该电子技术能够估计眼睛的位置,误差不超过一度。 关键词:眼动跟踪;头盔式眼动仪;算法;基于特征; 1 简介 眼动活动的使用能极大的改善人机接口的质量。应用眼动活动的人机接口有两种:在线接口和离线接口。在线接口允许用户利用眼动活动详细的控制接口[8]。比如,用户可以通过注视虚拟键盘上的按键来进行打字而不用使用传统的敲击键盘的方法[9]。这种技术也可以用在常用的接口中,比如用户可以在图形用户接口中注视一个图标来选择它,这样大大提高了速度[16]。 另一方面,离线的接口能监视用户眼动活动并且自动调整。例如,在视频传输和虚拟现实应用,可变分辨率显示技术能主动跟踪用户的眼睛并且提供一个关于凝视点的详细信息,同时省略了外围设备的细节[13,14]。 尽管眼动跟踪已经应用到一些研究系统和小型的产品中,但是眼动跟踪技术还没充分发挥它的潜力。尤为重要的是,眼动跟踪技术的许多方法已经应用了很多年。将这种技术整合成人机接口的首要障碍是这种系统要么容易被入侵,要么就是成本太高。最近,由于头盔式视频眼动仪逐渐缩小,眼动跟踪的被入侵性显著下降[15,1]。视频眼动跟踪移动技术也减少了入侵性[6,10],但是降低了系统的准确性。随着技术的不断发展,剩下的障碍就是成本。目前,有一些眼动跟踪系统已经投入市场,它们的价格大约5000到40000美元。值得注意的是,这些开销并不是由于硬件,因为在过去10年中高清数

头戴式眼动跟踪系统设计与实现-

头戴式眼动跟踪系统设计与实现* 为提高未来战争中士兵操控无人武器系统的作战效率,文章构建了头戴式眼动跟踪系统,基于角膜反射光斑和瞳孔中心定位算法相结合的视线估计方法,在Linux系统下使用结合OPENCV的开发语言,采用阈值分割法进行瞳孔粗定位,运用最小二乘椭圆拟合算法确定瞳孔中心坐标,以多项式函数的形式建立瞳孔中心与注视点之间的映射关系,实现了人眼注视方向的估计,为无人武器眼动跟踪瞄准奠定了基础,实验表明,该方法具有很高的定位精度。 标签:眼动跟踪;瞳孔-角膜反射法;椭圆拟合;最小二乘法 引言 无人武器系统是未来战争重要的武器装备,目前无人武器完全自主运行的技术仍不够成熟,主要还是依靠操控人员的远程手动操作,这难以满足战场的时效性需要。通过眼睛注视跟踪目标,可以提高操控效率。例如士兵佩戴装有眼动跟踪系统的头盔操控小型无人武器,瞄准攻击敌方士兵,可解放双手、减轻操控负担、提高作战效率。由于人员目标体积小、灵活度高,为实现精确打击需要较高的定位精度。 眼动跟踪[1,2]是近几十年来活跃的研究领域,它在人机交互[3]、驾驶员疲劳监测、游戏操作和心理学等领域有着广泛的应用前景。按硬件构成不同,可以将眼动跟踪系统分为桌面式和头戴式两类[4],桌面式眼动跟踪系统[5]是当前热点研究方向,但用户在使用过程中不可转动头部,轻微的偏移都会导致系统精度显著下降。头戴式眼动跟踪系统[6]具有便携性,由于其摄像头只拍摄眼部图像,图像清晰度高,瞳孔定位精度高,且允许头部自由运动降低了对用户的约束。 文章研究的眼动跟踪系统实现了对人眼注视方向的准确估计,具有测量准确、误差小且对佩戴人员干扰小的优点。 1 眼动跟踪系统设计 1.1 基本原理 眼睛结构如图1所示[7],主要包括瞳孔、虹膜及巩膜。文章采用Le Grand 眼球模型,Le Grand模型考虑了角膜和眼球曲率的不同,整个眼睛看作是两个不同曲率球体的叠加。人的视线方向由头和眼睛的方位共同决定,在头部保持不动情况下,中央凹的位置固定不变,此时人眼视轴方向的变化主要反映在瞳孔中心位置的变化。 本系统采用瞳孔-角膜反射法,该方法使用一固定红外光源照射眼球,在角膜上会形成一个红外光斑,称为“普尔钦斑点”。由于红外光源、摄像头与头部的相对位置保持不变,因此,斑点的位置也是相对于头部固定的,并不随眼球的转

眼动追踪系统技术性能要求

眼动追踪系统技术性能要求 一、产品质量技术规格及要求 (一)技术参数: 固定式: * 1、采样速率:双眼记录条件下不小于1000Hz,单眼记录条件下不小于2000Hz; 2、分辨率:≤0.02°; 3、精度:≤0.5°; 4、实时追踪延时:≤1.8ms; 5、追踪模式:瞳孔+角膜反射; 遥测式: * 1、采样速率:≥500Hz; 2、分辨率:≤0.1°; 3、凝视位置误差:≤0.5°; 4、实时追踪延时:≤3ms; 5、追踪模式:瞳孔+角膜反射; 6、头动范围:30cm X 30cm 7、可通过旋臂装置调整眼动仪,以适应被试者位置。 (二)性能要求: 1、眼动采集设备与被试距离50-70cm; 2、定标简单迅速,支持3点到13点定标; 3、可对扫视、注视和眨眼进行在线分析; 4、不受普通和隐形眼镜影响; 5、提供可视化实验设计软件: 1)易学易懂,适用于无编程经验的操作者; 2)简捷的可视化图形用户界面; 3)刺激呈现多样化:文本、图像、声音或三者的任意组合; 4)可使用实时眼动数据驱动显示画面的切换和事件的触发;

5)支持动态画面显示; 6)支持第三方实验设计软件,如E-Prime、Presentation等。 6、提供眼动数据回放分析软件: 1)可创建关键时域和任意形状的关注区域用于进一步分析; 2)支持多个画面显示; 3)可根据用户需要来设定显示和输出眼动数据成分; 4)在显示画面中回放注视点轨迹; 5)输出注视、扫视和关注区域报告; 6)以JPG图像文件格式输出数据画面; 7)将眼动数据输出到Excel等统计软件做后期统计分析。 7、国际通用实验设计软件: 1) 2.0标准版:E-Studio:可视化实验设计环境,只需简单地拖拉图片、声音、视频等 标准化模块并设置其属性即可方便地设计实验。 2)E-Basic:语法结构类似于Visual Basic的脚本语言,可实现某些E-Studio不易实现的 非标准化操作。 3)E-Run:可将E-Studio编译为E-Basic脚本语言并运行。 4)E-Merge:用于多任务数据融合。 5)E-DataAid:数据管理器,用于数据的筛选、编辑和导出。 6)E-Recovery:用于恢复程序非正常终止时的数据。 8、要求设备性能稳定,能够满足阅读和语言加工等心理认知科学研究的需要; *9、为保证产品质量,需提供生产厂商或中国区总代理商提供的授权书。 二、设备配置要求: 1、眼动主机一套,包括高速采集装置,红外光源,数据线缆,数据采集卡和眼动系统控制软件等 2、数据回放分析软件一套 3、可视化实验设计软件一套 4、国际通用实验设计软件一套 5、 2K升级模块 6、遥测升级模块 7、主试计算机一套:双核2.6G以上CPU,2G内存,17寸液晶显示屏,Windows7操作系统

深度分析眼动追踪技术

深度分析眼动追踪技术 著名科学家霍金教授生前因患有肌肉萎缩疾病,几乎完全瘫痪,既不能通过双手,也不能通过语言与外界沟通。因特尔研究院的技术专家经过长期努力,研发出一款环境感知辅助系统,最终有效改善了这位科学天才与世界的沟通方式。霍金使用的智能输入法,其里面就含有眼球追踪以及面部肌肉识别等技术,正是由于这项的技术的实现,让霍金打字或者演讲的效率提高了好几倍。 视觉追踪技术也称为眼动追踪技术,就是追踪眼睛的运动。准确来讲就是通过图像处理技术,定位瞳孔位置,获取瞳孔中心坐标,并通过某种方法,计算人的注视点,让电脑知道你正在看什么。 眼睛是心灵的窗口,透过这个窗口我们可以探究人的许多心理活动的规律。人类的信息加工在很大程度上依赖于视觉,来自外界的信息约有80 %~90 %是通过人的眼睛获得的。因此对于"人是如何看事物" 的科学研究一直没有间断过。关于这一点,对于眼球运动( 以下称眼动) 的研究被认为是视觉信息加工研究中最有效的手段。 眼动追踪技术属于机器视觉的一种技术,通过对眼动轨迹的记录从中提取诸如注视点,注视时间和次数,眼跳距离,瞳孔大小等数据,从而研究个体的内在认知过程。它利用软件算法、机械、电子、光学等各种检测手段获取受试者当前视觉注意方向的技术,通过图像传感器来捕捉到眼球的图像,根据图像的处理来识别每个人的眼球瞳孔里的特征,通过这些特征实时地反算出看屏幕的注视点。 眼动追踪技术的历史 早在19世纪就有人通过考察人的眼球运动来研究人的心理活动,通过分析记录到的眼动数据来探讨眼动与人的心理活动的关系。眼动仪的问世为心理学家利用眼动技术探索人在各种不同条件下的视觉信息加工机制,观察其与心理活动直接或间接奇妙而有趣的关系,提供了新的有效工具。

眼动仪的应用场景

在全球范围内,不少厂家都能够独立生产出多种型号多种品牌的眼动仪。但就厂家的研发历史与产品的知名程度而言,作为从1966年开始研发生产眼动仪的公司,日本NAC图像技术有限公司拥有着50多年的眼动仪研发经验,其生产的产眼动仪品牌产品也早已遍布全球,获得了各大高校与科研单位的高度认可。 那么眼动仪是用于什么场景,我们一起来看看眼动仪的应用。 1、用户体验与交互研究(网页可用性、移动端可用性、软件可用性、视线交互、游戏可用性研究) 眼动追踪可提供能够揭示可用性问题的用户行为数据,这是一种非常客观和直接的研究方法。用户体验与人机交互研究人员可使用眼动追踪对用户界面和用户体验进行考察和优化。 机场可穿戴式眼动追踪与导向标识系统研究:

可穿戴眼动追踪与游戏测试: 2、市场研究与消费者调研(包装设计、购物行为、广告研究) 眼动追踪是一种能够客观衡量消费者对营销信息的注意和自发反馈的唯一工具。这些洞察力可帮助营销人员有效地设计传达要素来抓住消费者的眼球。 可穿戴式眼动仪在真实商店环境中的应用:

3、婴幼儿研究(发展心理学研究) 婴幼儿研究人员使用眼动追踪来研究从出生到成年早期阶段的学习感知,认知和社会情感发展。 4、心理学与神经科学(认知心理学、神经心理学、社会心理学、视觉感知、灵长类动物研究) 眼动追踪可用于心理学和神经科学的各个不同研究领域,研究眼动行为发生的原因和机制以及我们用眼睛采集信息的方式。 德国柏林自由大学使用眼动追踪验证不同文化群体间的情绪性倾向观点:

日本京都大学眼动追踪对黑猩猩面孔浏览的研究: 5、人的效能研究(体育运动、新手-专家范式、操作员效率评估) 在人的效能研究领域中,眼动追踪经常被用来进行成功率研究,新手专家对比研究,高效培训方式的开发以及认知策略的评估等。 眼动追踪帮助改善冰球运动击球技巧:

基于模式识别技术和眼动追踪技术的治安监控系统应用拓展

冯如杯创意大赛(论文) 基于模式识别技术和眼动追踪技术的治安 监控系统应用拓展

摘要 本文叙述了一种将眼动追踪技术和模式识别技术与现有的安全监控系统相结合的创新思路。以期对现有安全监控系统获取的过剩闲置的信息资源进行综合性的利用。通过眼动追踪和模式识别两种技术,我们可以进一步的对监控系统获取的图像信息进行分析和总结,并将结果运用在商业方向和学术研究,以此带来收益,减少安全系统自身的安装和维护的财政支出,同时也进一步的在安全方向上强化治安监控。 关键词:眼动追踪技术,模式识别,安全监控,学术研究,商业运营

目录 摘要 (i) 关键词 (i) 一、创意介绍 (1) (一)作品背景 (1) (二)创意来源 (1) 二、作品核心创意 (1) (一)系统简介 (1) (二)核心思路描述 (1) 三、系统相关技术及创意可行性分析 (2) (一)眼动追踪技术 (2) (二)实现方法 (2) (1)信息采集 (2) (2)后台计算 (2) (3)数据整合 (3) (4)商业运作 (3) (三)预计难点 (4) (1)数据储存 (4) (2)设备问题 (4) (3)模式识别 (4) (4)市场认可 (4) 四、系统的前景与可能性 (4) (一)采用更先进模式识别技术 (4) (1)人脸定位技术 (4) (2)人脸识别技术 (4) (3)敏感区域入侵监控 (5) (二)采用更加先进的设备 (5) (1)更先进的监控设备 (5) (2)更强大的计算处理 (5) 结论 (5)

一、创意介绍 (一)作品背景 如今,中国的社会经济高速发展,城市不断建设、扩大,城市的人口暴增、人员流动性增加,为了解决和缓解治安管理所面临着的问题和压力,安全监控系统被广泛的应用,安装在街头巷尾的它们威慑了不法分子,一定程度上保障了人民的生命财产安全。但是,安全监控系统的广范应用也意味着一笔高昂的安装与维护费用。平日里,时刻处于工作状态的监控器为我们采集了大量信息,但等待这些信息的,却往往只是无人问津,最后被删除的命运。我们认为,在信息化时代的当下,对这信息的不作为是一种对于资源的浪费。所以我们想要找到一种方法,使这些信息发挥出其应有的作用。 (二)创意来源 现代的城市生活充满了商业化的气息,我们在想:能不能把城市里无处不在的监控商业化呢?这样可以在完善治安监控的同时减少财政支出,甚至在一定程度上进行创收。于是我们注意到了现在的眼动追踪技术。眼动追踪是对人们目光注视点轨迹的追踪。现已有广告公司将此种技术运用到商业当中。如果将此技术和遍布街头的监控系统相结合,不仅有望解决系统的维护费用问题,也能创造商业价值。 二、作品核心创意 (一)系统简介 本系统将主要在步行街、商场等人流量大的地区投放。主要目的为完善治安监控,同时也起到进行有偿商业统计和科学调查的作用,以此降低治安监控的安装和维护成本。 (二)核心思路描述 本系统由监控系统,目光追踪系统以及后台数据处理系统3部分组成。其中监控系统与现今的治安监控系统没有太大区别,但是会增加所设置的摄像头数量

基于眼动追踪视频的实时情感识别系统

基于眼动追踪视频的实时情感识别系统 智能眼镜设备,如Google Glass、HoloLens,和一些头戴式智能 设备,如增强实现设备(AR),虚拟现实设备(VR),正在改变我们的生活。VR设备给用户带来了非物理世界的沉浸式体验,而智能眼镜、AR设备使用户可以在真实世界中和各种网络虚构的对象互动。这一类智能设备很可能在将来成为个人设备的中心枢纽,并在未来被用户大量使用。在这些设备上,为用户提供智能交互方式、改善智能交互体验是至关 重要的。而情绪识别能力是影响可穿戴设备的智能水平的一个重要因素,智能眼镜可以在适当的时间点感知所有者的情绪变化并执行适当 的操作,例如,对智能眼镜、AR设备等和真实场景交互的设备,通过感知用户情绪和此时用户看到的事件或场景,可以指导广告设计、投放,而对沉浸式的VR等设备,也可以指导改进游戏场景、游戏情节等的设计。然而,在这些智能设备上,目前缺少有效的情绪识别方法,传统的 识别技术依赖于整个面部的表情,然而在穿戴了此类设备后,由于设 备本身的遮挡,往往难以拍摄到完整的面部表情;有些方法尝试引入 特殊硬件来感知用户的情绪,但此类方法要增加额外的硬件设备,同 时也会增加额外的制造成本,甚至有些接触性的硬件设备还会使用户 感到不便。因此,如何在现有的设备上,在不影响用户使用体验的前提下,快速识别出用户的情绪且能保证一定的准确性,成为一个值得研 究的问题。为了解决这个问题,本文提出了一个新颖的识别算法,并搭建了相应的原型系统。本文的工作主要包括以下几个方面:1.提出并 设计了一个名为EMO系统,能够在智能设备上实时地识别出快乐、惊

讶、恐惧、愤怒、悲伤、厌恶和中立,共七种基本情绪,识别的准确率达到72.2%。为了达到这一目的,EMO利用个人智能设备上现有的眼动追踪摄像头,拍摄眼动追踪视频,并从中识别出用户的表情。2.设计了基于深度学习的特征提取器,可以有效地从眼动追踪视频中抽取特征;并设计了个性化分类器,来适应不同用户在不同表情上的个性化表达。 3.设计了一个快速转发器和帧采样器,在几乎不损失准确率的情况下,评估并避免不必要的计算,从而大大缩短识别的时间。在Open-Q820 的开发板上,配备快速转发器,识别速度达到了 12.8fps;进一步配备 帧采样器时,识别速度能够达到97fps。4.搭建了一个原型设备,分别配备了Open-Q820和Hikey两种硬件模块,并在此基础上实现了 EMO 系统,进行了全面的实验评估。实验结果表明,EMO能够实时识别用户表情,且在识别准确率、识别速度和资源消耗等方面都明显优于目前 最先进的方法。

眼动追踪技术-揭秘男女视角差异

眼动追踪技术——揭秘男女视角差异 当我们漫不经心浏览网站时,如果蹦出一张美女图,您的眼睛会盯向哪里?近日国外有一间调查公司借助眼球追踪技术,分析了消费者的网站浏览重点。其中有几项调查是针对男女生看到广告后的眼球轨迹,发现男生与女生所注意的“重点”差异很大。下面就让我们通过13组比较图来看我们“看法”的差异。 主要技术来源:EYETrackshop。很多时候,你的眼睛背叛了你的心。EyeTrackShop是一个用摄像头来追踪眼球运动轨迹的研究调查平台。使用该技术可以全面的分析计算机用户正在凝视着屏幕的哪一个区域。(在眼球轨迹分布图中,颜色越接近红色,表示眼睛停留的时间越久。) 看比基尼美女时 左半边是男生的视线焦点,右半边是女生的视线。男生跟女生看的重点差不多,只是女生会在一旁广告文字内容上多停留一点时间。 看裸女时

左半边是男生的视线焦点,右半边是女生的视线。这是一张知名球鞋品牌的广告,厂商安排裸女身上仅穿一双球鞋。男生跟女生的视线有很明显的差异。男生完全不看臀部以下,当然也不看那一双球鞋。而女生大部分都会看那双球鞋。 看运动员时 这是一则分析男女看棒球选手照片的眼球轨迹。男女都会看运动员脸上的表情,但是有一部分的男性,还会在意运动员选手的“尺寸”。 当泳装男女并列在一张图片时 ▼女生看的焦点 ▼男生看的焦点

女生注意的重点有三:女主角的脸、男主角的脸、男主角的小肚楠。男生注意的重点也有三:女主角的脸、女主角的身材、男主角的“尺寸”。 男女差异分析到此结束,接下来还有对各类型网站的“看法”。看完本文后,你就知道怎么做广告了! 谁在看网站广告? 这里列出三种一般网站搭配网站广告的形式,你可以看出,不管网站广告放在哪裡,结果都是一样的。看到这里后,你还会再到网站的右侧广告栏里面投放广告吗? 你怎麽看Google查询结果? 这是一张典型的Google查询结果,研究显示我们只会将注意力集中在查询出来的前面五项,后面的重要性依次递减。而右上方第一、二则的广告的确是有吸引到部分的注意。 新闻网站怎麽看?

关于眼球追踪,不可不知的三个关键

关于眼球追踪,不可不知的三个关键 提起VR领域最重要的技术,眼球追踪技术绝对值得被从业者们密切关注。Oculus创始人帕尔默.拉奇就曾称其为VR的心脏。在本期VR+中,我们就一起来聊一聊这项让你和设备眉来眼去的技术。 1 什么是眼球追踪技术? 眼球追踪是一项科学应用技术,用户无需触摸屏幕即可翻动页面、实现操作。当人的眼睛看向不同方向时,眼部会有细微的变化,这些变化会产生可以提取的特征,计算机可以通过图像捕捉或扫描提取这些特征,从而实时追踪眼睛的变化,预测用户的状态和需求,并进行响应,达到用眼睛控制设备的目的。 事实上,很多人对这项技术并不陌生。从几年前三星Galaxy S4通过眼球控制视频的暂停和播放,到传言中iPhone7将实现根据眼睛的注视而自动修正文本中的错误词汇,各大厂商从未停止过探索。但说起当下最热衷于研究此项技术的行业,恐怕非VR莫属了。那么,眼球追踪技术究竟给VR带来哪些变革? 2 眼球追踪技术能带来什么? 眼球追踪技术能解决晕眩感?至少目前的VR从业者大多这样认为。人看到的东西的成像会根据眼睛距离事物的距离来进行自动适应调整,而我们带上VR眼镜后,眼睛和屏幕的距离是固定的,因此会对眼睛造成一定程度的欺骗,而若屏幕中播放的远距离的场景和近距离场景的切换,眼睛会无法识别,从而导致晕眩。眼球追踪技术可以获知人眼的真实注视点,从而得到虚拟物体上视点位置的景深。所以,眼球追踪技术或将成为解决虚拟现实头盔眩晕病问题的一个重要技术突破。 先进的眼球追踪技术还能使VR头显呈现出的图像更自然,延迟更小,这都能大大增加可玩性,但前提是必须解决一系列技术难题。 3 眼球追踪技术需要哪些突破?

郑束蕾博士:眼动追踪技术在空间认知中的应用

郑束蕾:眼动追踪技术在空间认知中的技术 地图、空间认知、眼动 地图学——学科、空间认知——理论、眼动——方法 地图学发展——人的认知能力——测量手段 技术发展:石器技术、造纸术、印刷术、计算机技术、可视化技术、VR、AR、网络、移动技术、大数据、定位技术。 地图形式:崖画等古地图、纸质地图、电子地图、地图可视化、虚拟环境、网络地图、移动地图、众包数据、位置服务、泛在制图 目录:地图学的认知问题、多元的空间认知范式、眼动追踪技术的应用 地图学中的认知问题 地图是“空间认知和空间思维的工具”…是人类认识自己赖以生存的环境——空间认知的最主要的,且永远不可替代的工具。 把认知科学的方法引入到地图学研究有两个i主要目的:一是弄清楚地图是人类认知空间环境的结果又是依赖的信息加工机制;二是弄清地图设计制作的思维过程并设法描述他们。 一:地图学中的部分认知问题: 科学与艺术的会合?制图与测绘的分歧?地图与地理的关系?实地与虚拟的贯通?专家与新手的模糊?可用、适用、好用?地图与人的自适应? 科学与艺术的会合?——投影、区域、风格、画法,设计体现东西方理解差异 制图与测绘的分歧?——ArcGIS与水准仪、AutoCAD,关注信息的传输效率地图与地理的关系?——2维、2.5维、3维、多维,可视化工具和认知手段实地与虚拟的贯通?——室外/室内/地下/天空、VR/AR,多通道沉浸感知专家与新手的模糊?——普适化、工具化、大众化、个性化、众包制图 可用、适用、好用?——可用性(效率、效果、满意度) 地图与人的自适应?——机器学习、智能化、人工智能

二、地图认知研究的发展历程 多元的空间认知范式 关于空间认知,我们仅从地图学的角度把它界定于:人们认知自己赖以生存的环境,包括其中的诸事物、现象的相关位置、依存关系以及他们的变化和规律。心象地图、认知地图:地图学感兴趣的原因是要了解地图的认知和特点,最重要通过改善地图而增进传输效果;而心理学家则是把地图作为构成一种测试模型的工具,从而揭示其某些认知的过程。 一、认知空间的分类(三元空间及细分) 自然空间(地理空间) :行政区划、楼群街道、地貌分布、室内室外、地上地下;人文空间:政治、人口、民族宗教、经济、交通、文化、体育等; 信息空间:赛博空间、网络空间:黑客攻防、物联网等 虚拟现实空间:虚拟游戏、辅功医疗等 微观小空间:细胞、量子、文字阅读等 社交媒体室间(舆论空间) :电视、传媒、论坛、邮票等 社会心理空间: 心理错觉、心理认同等 二、空间认知的范式 1、深度计算范式:围棋算法、SLAM、波士顿动力Atlas、 Spot等 2、认知心理学范式:察觉、感受、再认、想象、判断、记忆等过程 3、生物感知范式:眼动追踪、脑认知、医疗核磁等及联合应用 4、地图-地理学范式:野外考察、识图用图、心象地图、自动驾驶等 参考《心智的构建》、《认知心理学及其启示》、《地理空间认知》等; “三个脑”:对地观测脑、智慧城市脑、智能手机脑一对地观测技术、脑认知、人工智能 三、空间认知的研究现状 1、深度计算范式现状 大数据计算量化分析、模型算法的云计算及迭代、由深度学习到人工智能目前的关键问题是,如何超越直觉的理解,科学雅确地定义这些认知基本变量从而建立统一的认知基本单元模型 2、认知心理学范式现状

相关主题