中国电影科学技术研究所 刘 达
【摘要】本文以电影产业信息化和智能化发展升级为背景•以计算机视觉和机器学习技术 为基础,通过研究其在电影三维动画制作和虚拟资产采集分析处理中的应用,探讨实现电影视 觉表达的新方法和新模式,并从战略层面提出推动电影视觉表达创新发展的相关思考。
【关键词】计算机视觉 机器学习 认知计算 电影视觉表达 提质升级
1.引言
电影视觉表达是电影领域的永恒话题,其与时 代发展、行业进步以及新技术的发展和应用密不可 分。如何利用视觉元素来自然、流畅、高效地表达 电影作品的思想,抒发电影人物的情感.阐述电影 人物的体验.弘扬电影作品的世界观、人生观和价 值观.是电影视觉表达的核心内容和主旨要素。电 影的视觉表达应当与时俱进.与整个社会的信息化 和智能化演进相结合.不断增强电影作品的视觉冲 击力、震撼力和影响力。因此.创新电影视觉表达 方式、探索适应时代特征和产业需求的电影视觉表 达新方式,对于提升电影作品的视听质量和创作水 准,促进电影产业健康可持续发展具有重要意义。
电影是科技进步的产物,是科技与文化的有机 融合体。在数字电影时代.电影产业兼具文化创意 产业和战略性新兴产业的双重内涵。电影科技是电 影产业发展的根基.高新技术是电影产业提质升级 的重要支撑和强大动力。近年来,电影产业加速向 高新技术产业转型升级.信息化和智能化进程不断 加快。特别是,以4K、8K、31)、4IX巨幕(Gianl Screen).高帧率(HFR)、高动态范围(HDR)、 广色域(WCG)、视觉特效(VFX)、虚拟现实 (VR)、增强现实(AR)、沉浸式声音(Immersive
Sound)等为代表的新兴视听技术,以计算机视觉 (CV)、计算机图形图像(CG/CGI)、人工智能 (A1)、机器学习(MI.)、认知计算(Cognitive
4K/8K ( UHD超高清技术) 计算机臓(CV )
3D/4D (立体电影/动感电影) 计算机图形图像(CG/CGI)
巨幕(Giant Screen ) 人工智能(AI)
高帧率(HFR ) 机器学习(ML )
高动态范围(HDR ) 认知计算(Cognitive Computation )
广色域(WCG ) 云计算(Cloud Computing )
视觉特效(VFX ) 大数据挖掘分析
虚拟现实(VR ) 信息可视彳匕与人机交互
增强现实(AR ) (Information Visualization/HCI)
沉漫式声音(Immersive Sound )
新删听技术 智弋信息技术
图1新兴视听技术以及智能科学与新一代信息技术 支撑和引领电影视觉表达创新发展
Computation) x 云计算(Cloud Computing)、大数 据挖掘分析、信息可视化与人机交互(Information Visualization/HCI)等为代表的智能科学与新-代
信息技术,正在电影拍摄、制作、发行、放映等领 域得到愈加广泛和不断深入的应用.不仅促进电影 视听质量和观影体验的显著提升.驱动电影产业由 服务功能主导型向用户体验主导型转型,而且支撑 和引领电影视觉表达方式实现与时俱进和创新发展 (图1所示)。
2.数字电影时代电影视觉表达的技术演 进趋势
在数字电影时代.从技术层面分析,电影视觉 表达的发展演进呈现以下基本趋势:
(1) 电影类型:2D平面电影-3D立体电影 (实现视觉纵深感)—41)动感电影(动感座椅+动 作数据编码+环境特效)
(2) 图像格式:1K ( 1024 X 768 ) -* L 3K (1280X 720) —2K (2048 X 1080) -*4K (4096 X 2160) -*8K (8192X4320)
(3) 图像摄制与播映速率:标准帧速率(SFR) —高帧速率(HFR)
(4) 图像动态范围:标准动态范围(SDR)〜 高动态范围(HDR)
(5) 色域(颜色范围):1TU — RBT 709 (HDTV) —DCI P3—riU-R BT 2020 (超高清电视 UHDTV) / ACES (Academy Color Encoding Specification.学 院颜色编码规范)
(6) 数字摄制方式:数字实拍+计算机动画 (CG/CGI)-数字实拍+虚拟摄制+虚实融合[三 维激光扫描+激光雷达(址网换替)AR) +三维打印 (3DP) +计算机视觉(CV) +计算机图形学 (CG) +动作捕捉(MC) +面部表情捕捉+虚拟现 实(VR) +增强现实(AR)]
(7) 图像编码方式:MPEG-4— MPEG-2-* JPEG2000 (专业影院);MPEG—2—AVC (H 264) -* HEVC (H. 265)(新媒体电影)
(8) 图像品质、视觉体验和数据服务:常规像 素-►更多像素、更快像素、更优像素综合应用;基 于服务质量(QoS)-基于体验质量(QoE);提供 原始数据服务一提供深度数据服务(基于数据仓库、 数据挖掘、人工智能、机器学习、智能分析、数据
可视化等技术)
3.基于计算机视觉和机器学习技术的电 影新视觉表达
3. 1科技与文化深度融合促进电影新视觉表达 方式诞生
视觉是人类最为强大的信息感知方式,为我们 提供了关于周围环境的大量信息,使我们可以在无 需进行身体接触的情况下,直接与外部环境进行智 能交互。随着人类社会全面步入多媒体通信和高速 互联网吋代,电影视觉表达的方式与手段不断创新 和发展•并呈现技术性、交互性、多元化、网络化、 虚拟化特征。持续追求卓越的视觉品质和观影体验, 获得完全的沉浸感、临场感和逼真感.成为电影视 觉表达的发展演进方向。
电影新视觉表达方式的诞生,依赖于现代科技 与电影文化的深度融合,依赖于计算机视觉、计算 机图形图像、大数据挖掘分析、机器学习、人工智 能、认知计算等新一代信息技术与电影创作的有效 结合。随着传统信息技术向新一代信息技术持续演 进.电影产业加速向智能化发展升级。特别是.继 实验发现、理论预测和计算机仿真三大科研范式之 后.数据密集型研究成为科学研究的第四范式.数 据成为重要战略资源和蕴含重要应用价值。我国电 影产业要适应大数据时代和智能化发展要求.准确 把握新--轮科技革命和产业变革趋势,加强战略谋 划和前瞻部署,将关注重点向数据和信息转变.推 动电影视觉表达与新一代信息技术深度融合,为电 影视觉表达创新发展提供新机遇。
3. 2计算机视觉技术及其在电影新视觉表达中 的应用
计算机视觉(Computer Vision)又称机器视觉 (Robot Vision),即通过使用数字摄像机和计算机 来代替人眼对冃标进行识别、跟踪和测量,再利用 计算机进行图像处理.以产生更适于人眼观察或传 送给仪器检测的图像。简言之,计算机视觉(CV) 就是给计算机部署眼睛(数字摄像机)和大脑(算 法),使其能够模拟人类视觉系统(HVS)的结构 和功能.实现对周围环境视觉信息(图像/视频)的
智能分析和处理,进而感知环境和适应环境。计算 机视觉是人工智能(Artificial Intelligence)领域的 核心问题.其根本目标就是使用计算机及相关设备 对人类视觉进行模拟。计算机视觉学科的关注重点 是人工智能系统理论.即从图像中提取信息和理解 图像语义的相关理论。
计算机视觉(CV)技术在电影虚拟摄制和三维 动画制作领域应用极其广泛,其对于丰富和创新电 影摄制手段、降低真人摄制成本具有重要应用价值。 计算机视觉的主要研究对象是映射到单幅或多幅图 像上的三维场景,电影虚拟资产三维建模、基于图 像/视频的人体运动数据和面部表情数据捕获、数字 角色与场景建模、交互式角色动画控制与运动生成 等都是计算机视觉技术的典型应用场景。简单回顾 新技术对于电影视觉表达的冲击和影响。以美国著 名导演詹姆斯•卡梅隆为例.早在1997年,他就在 全球率先将电脑特技大规模应用于电影《泰坦尼克 号》的视觉效果制作中,再造了泰坦尼克号沉船宏 大、逼真的震撼场面。2010年,R梅隆又将新型 3D立体摄像、动作捕捉拍摄、CG制作合成等新技 术应用于科幻巨制电影《阿凡达》中.为全球观众 提供了一场难以逾越的视觉奇观和视听盛宴.不仅 意义重大.而且影响深远。可以预见,随着计算机 视觉技术在电影虚拟摄制和三维动画制作等领域的 应用日益完善.电影虚拟资产建模分析和电影制作 虚实融合的应用场景将会越来越多.电影的创作手 段与视听体验将会发生重大升级和显著增强。
下面以三维人物动画制作为例阐述计算机视觉 技术在电影新视觉表达方面的应用。三维人物动画 技术可划分为两大类:基于传统二维计算机动画技 术发展而来的模型动画技术和基于运动捕捉数据的 三维人物动画制作技术。前者本质上是一种基于数 学模型的动画制作方法;后者则以真实感三维运动 数据为基础,采用数据驱动方式产生三维人物动画, 其本质上是-种数据驱动的动画制作手段.包括基 于运动捕捉数据的编辑、合成、重用等技术。近年 来.随着运动捕捉设备的技术升级及广泛商用,产 生了大量真实感三维人体运动数据和可重复利用的
三维人体运动捕捉数据库。三维人体动画制作流程 包括三维人体运动数据采集、数据预处理、运动合 成以及虚拟环境中角色行为动画生成等步骤。三维 人体运动数据采集即采用特殊硬件设备实时采集真 实运动物体的三维运动数据,并将其映射到预先建 立好的三维模型上,生成动画序列.其具有数据采 集方便、精度高、真实感强、制作效率高等优点。 基于视觉方法的三维人体运动捕捉技术近年来应用 极其广泛,其涵盖基于特征跟踪、基于模型匹配、 基于侧影分析等技术。数据预处理主要包括数据中 缺失特征点重建、自然/真实感三维人体运动数据评 估、运动数据压缩编码、关键帧提取、运动序列分 割与识别等。运动合成、虚拟环境中角色行为动画 生成将在后续的机器学习部分阐述。
3. 3机器学习技术及其在电影新视觉表达中的 应用
机器学习(Machine Learning)即通过算法. 使机器能够从大量历史数据中学习规律,从而对新 的样本做智能识别或对未来做分析预测。简言之, 机器学习是指通过不断学习和训练,利用经验来改 善计算机系统的自身性能。机器学习遵循以下基本 步骤:确定训练数据集(Training Data Set);使用 训练数据集训练或学习模型,构建学习器(Learner); 使用验证数据集 (Validation Data Set)评估 学习器性能,进行模型选择;使用最终模型对测试 数据(Test Data)进行预测,输出预测结果。机器 学习的最终目标是使学习或训练得到的模型能够很 好地适用于新样本,即具有强泛化能力(Strong Generalization Power),避免过拟合(Overfitting) 和欠拟合(Underfilling)发生。其中.过拟合 (Overfilling)是由于学习能力过于强大而产生,其 对已知数据预测很好.对未知数据预测很差.会使 学习器的泛化性能下降,是机器学习面临的主要障 碍,必须缓解和降低其风险;欠拟合(UnderfiL ting)则是由于学习能力低下而造成.可通过增加 训练样本来克服。
机器学习技术在计算机图形图像、电影虚拟资 产分析、三维动画制作等领域被广泛应用。例如.
三维运动数据重用已成为三维动画电影创作中的关 注热点.其本质上属于数据驱动的运动生成技术。 基于海量真实感三维运动数据和面部表情数据,可 采用机器学习技术实现三维运动数据重用,如子空 间分析、统计学习、主成分分析(Principle Compcr nent Analysis, PCA)、流形学习(Manifold Learning) 等技术,可用于对已有三维运动数据进行分 析、学习并指导新运动数据生成。另外,行为动画 的自动化、智能化生成是三维动画电影制作的重要 研究内容,其实现可应用机器学习技术.包括构建 具有自主决策能力的智能体(Agent),构建行为模 型来指导虚拟角色行为动画生成,以及为虚拟角色 建立行为与感知模型.以使智能体(Agent)能够 快速、鲁棒地学习与不同用户之间的交互行为,从 而为交互式虚拟环境和虚拟角色提供动态行为规划。 此外,三维运动数据和面部表情数据属于多媒体数 据,机器学习技术在多媒体内容分析与图像理解领 域应用广泛,因而在三维运动数据和面部表情数据 处理中具有重要应用价值。
还可基于机器学习技术实现人脸图像的表观迁 移与表情迁移.简述如下。数字图像主要涵盖形状 信息、颜色信息和纹理信息三类信息.结合图像的 颜色信息和纹理信息,可对图像表观进行充分处理。 应用机器学习和图像匹配检索技术.可从大规模图 像库中检索一幅与待处理彩色图像语义相似的参考 图像。通过采用自动选择纹理或颜色迁移的方法, 来自动分析和识别原图中需要进行颜色或纹理迁移 的区域。首先分析两幅图像中的相似区域,结合超 像索技术和显著性分析,得到需进行纹理迁移或颜 色迁移区域的掩码,然后对不同区域分别进行相应 的纹理迁移或颜色迁移,最终实现人脸图像的表观 迁移,再结合脸部表情动画技术和表情模版匹配技 术可实现人脸图像的表情迁移。
此外,机器学习中的半监督学习(Semi—Supervised Learning)技术可在电影虚拟摄制领域发 挥重要作用。在半监督学习中,学习器不依赖于外 界交互,自动利用未标记样本来提升学习性能,其 可分为纯半监督学习(Pure Semi - Supervised
Learning)和直推学习(Transductive Learning), 前者假定训练数据中的未标记样本并非待预测数据. 后者则假定学习过程中所考虑的未标记样本恰是待 预测数据.学习的目的是在这些未标记样本上获得 最优泛化性能(图2所示)。半监督学习具有极其强 烈的现实应用需求.在电影虚拟资产采集分析应用 中,往往易于采集大量未标记样本,而获取标记则 需消耗大量的时间和精力。结合少量已标记样本和 大量未标记样本.在简化对样本标记的工作量的同 时.通过建立更加准确的数据模型,从而完成学习
1
待测!Stig
图2半监督学习(含纯半监骨学习和直推学习)图示
综上所述,机器学习通过对已有样例的统计、 分析来挖掘隐藏其中的高层模型,本质上属于数据 驱动的工作机制,其解决问题的一般性和可推广性 受限。一般来说.人类认识未知世界的基本模式是 感知f学习—认知,而认知科学(Cognitive Science) 的研究任务正是发现人类认知的本质和规律. 揭示人类心智的奥秘,未来基于认知科学的相关研 究可能实现突破.从而能够发掘出更具普适性的人 体行为、表情和情感的产生机制。由此可见,认知 计算(Cognitive Computation)对于电影视觉表达 方式的创新发展具有重要促进作用。认知计算旨在 教计算机像人脑一样学习和思考.并做出正确、科 学的决策。基于视听觉信息的认知计算将认知定义 为大脑对视听觉信息的计算.其认知数据是被人类 直接感知和理解的视频、音频、文本等信息。基于 视听觉信息的认知计算的目标是从人类视听觉认知 机理出发,研究构建新的计算模型与方法,提高计 算机对非结构化视听觉感知信息的理解能力以及对 海量多源异构信息的处理效率.其主要解决感知特
征提取、表达与整合,感知数据的机器学习与理解. 多模态信息协同计算等问题。认知计算时代被誉为 下一个计算时代。在认知计算时代,计算系统将具 备感知、学习和适应的能力.将成为人类能力的扩 展和延伸。可以预见,随着电影产业信息化和智能 化发展进程的不断加快,认知计算技术将从根本上 改进电影的创作生产模式和视觉表达方式。
总之,在计算机三维动画制作、电影虚拟摄制 和视觉特效制作领域.方便快捷的素材采集机制和 智能高效的后期处理技术极为关键。在素材采集方 面,涵盖基于视觉原理的高效、鲁棒的三维运动数 据和面部表情数据捕捉技术.基于图像/视频/手绘 的数字角色及场景建模技术.基于视觉交互方式的 行为动画制作技术及软硬件系统平台等。在后期处 理方面,涵盖更具普适性的基于机器学习和认知计 算技术的三维运动数据/面部表情数据重用技术和三 维动画智能化生成技术等。
4.加快电影视觉表达创新发展的战略思 考
(1) 进一步深化对电影本质的认识,中国电影 要走高科技和自主创新发展道路,大力发展计算机 视觉、机器学习、认知计算、虚拟摄制、虚实融合 等技术,不断创新电影视觉表达模式,进一步增强 和拓展电影视觉表达的感知性与认知性。
从本质上看.电影是一种特殊产品,兼具工业 属性和文化属性.必须统筹并重。电影产业以科技 为基础和先导,中国电影的发展升级,既要借鉴发 达国家成功经验,更要紧密结合国情,走中国特色 创新发展道路。因此.电影的视觉表达必须与时俱 进,要与计算机视觉、计算机图形图像、机器学习、 认知计算、虚拟摄制等高新技术紧密结合。我国要 以开展电影新视觉表达关键支撑技术研究与应用试 验为契机.积极拓展电影视觉感知模式和认知模式, 从更高层次实现创新发展。
(2) 综合运用JK、8K、3D、4巨幕、高帧 率(HFR)、高动态范围(HDR)、广色域(WCG)、 视觉特效(VFX)、虚拟现实(VR)、增强现实
(AR)等视觉表达手段,全面提升国产电影的摄制 水平、科技含量、视听品质和观影体验。
视听品质与创作水准是电影的生存之本和电影 产业可持续发展的重要基石。“十三五”时期(2016 〜2020〉是我国电影产业实现提质升级的关键时期。 随着电影视觉表达模式的多元化、高层次发展,我 国应积极实施电影精品战略,持续推出具有卓越视 听品质和创作水准的优秀电影作品,有效改变目前 国产电影作品“有高原,缺高峰”现状,加快实现 电影大国向电影强国的历史性跨越。
(3)以电影产业信息化和智能化升级为契机, 对我国电影产业的信息化和智能化发展实施顶层设 计,创建基于大数据分析和机器学习技术的现代电 影智能化生产制作流程和产业服务模式,促进电影 视觉表达向智能化演进升级。
迄今,电影产业已经步入大数据时代,电影大 数据呈现海量、多源、异构特征.电影行业的数据 密集型应用将会愈来愈多。与此同时.智能化是电 影产业发展的必然趋势,机器学习正是智能科学和 大数据挖掘分析领域的核心技术。我国电影产业要 统筹数据、技术和应用,加快实施电影大数据的采 集、处理、存储、挖掘、分析和可视化.推进机器 学习技术深入应用,优化电影工艺流程和产业结构. 促进电影视觉表达、电影摄制工艺和产业服务模式 优化升级,推动电影产业由提供原始数据服务向提 供深度数据服务转型,以实现科学发现产业规律、 准确把握产业趋势和有效规避产业风险•
参考文献
[1] 《机髀视觉》.伯特霍尔徳•霍恩著.中国青年出版社 .2014.
[2] 《机器学习》.周志华著.清华大学出版社.2016.
[3] 《大数据思维》.郭贺程.《科学与社会》.2014. 4 (1).
「4]《计算机视觉与机器学习技术在三维人体动画中的应用综 述》.肖俊・庄越挺・吴飞.《计算机辅助设计与图形学学报》 200& 3.
[5]《大数据:互联网大规模数据挖掘与分布式处理Anand Rajaraman. Jeffrey David Ullman 著.人民邮电出版社.2012.
不管是有关案例,还是有关动画、视频制作,只要您有任何问题,都可以随时联系我们。
我们将会在24小时内回复您。
公司地址:天津市西青区中北镇万科朗润园
版权所有:COPYRIGHT © 2010-2019 天津天源文化传媒有限公司 本站视频作品采用知识共享署名非商业性使用 津ICP备14005706号-22
友情链接: