干貨 | vr（虛擬現實）電影聲音制作流程探析

2018-04-02 16:06 發(fā)布

VR（虛擬現實）電影通過對完整空間的展現，讓觀眾獲得身臨虛擬現實空間的沉浸感。配合這一感受的聲音制作采用三維環(huán)繞聲格式，使其最大限度地接近人們在現實生活中的聽音體驗。耳機還放是VR電影聲音還放的基本模式，通過頭部相關傳輸函數（HRTF）編碼，3D環(huán)繞聲以兩聲道的虛擬環(huán)繞聲形式重放出來，同時配合頭部跟蹤的數據回傳進行調整，使聲音不會隨著觀眾頭部的轉動而轉動，而是保持在原先的方位上，給觀眾帶來聲音獨立于耳機存在的幻覺。VR電影的聲音制作和傳統電影類似，都包含前期錄音和后期制作兩個環(huán)節(jié)，后期制作完成后要輸出聲音母帶，并與畫面打包合成，才最終獲得可用于發(fā)行的母版。除了與傳統電影相類似的聲音設計和錄音、編輯、混錄之外，虛擬現實電影的聲音制作在工藝流程上要考慮如何拾取三維聲場里的聲音、聲音編輯時如何觀看3D畫面、如何讓聲音和畫面取得同步、在頭部跟蹤中聲音如何跟隨觀影視角的變化、如何處理聲音的空間感、如何進行三維聲音混錄、怎樣監(jiān)聽，以及怎樣輸出聲音母帶、選取什么樣的輸出格式等。

拾音環(huán)節(jié)

對任何電影聲音制作來說，前期拾音只是完成素材的準備。無論是同期錄音時主要針對對白的拾音，還是單獨進行的音響效果錄音、環(huán)境聲錄音，以及后期制作時的ADR錄音、擬音等，都是為聲音編輯準備素材。在VR電影中，對聲音所處聲場信息的展現比傳統電影的要求更高。這些聲場信息可以通過后期制作來模擬，也可以在恰當的聲場環(huán)境中直接記錄。

針對直接記錄現場三維聲場空間信息，有三種拾音模式可供選擇：一種是采用雙耳拾音技術（Binaural Recording）的人工頭或類人工頭拾音，一種是采用聲場合成技術的原場（Ambisonics）傳聲器拾音，還有一種是通過設置能記錄水平和高度信息的環(huán)繞傳聲器組來拾音。

人工頭拾音技術模擬人耳聽覺的外部模型，在人工頭模型的仿真耳道外部入口處或耳道內部末端放置拾音振膜，從而獲得和人耳聽覺類似的拾音效果。人工頭拾音包含了相應的HRTF信息，該信息是人工頭拾音能再現三維聲場信息的關鍵，但該信息很難與觀眾自身的HRTF信息完全吻合，因此在聲場重現上存在一些誤差。另外，人工頭拾音只適合于耳機還放，如果采用揚聲器還放，會因為觀眾自身的HRTF信息帶來聲染色，導致聲場信息的畸變。人工頭拾音的優(yōu)點是清晰明了、簡單便攜，操作也十分簡便?，F有的人工頭話筒包括Neumann的KU 100（如圖1所示），另外還有將振膜通過支架直接固定在真人頭耳道位置的方式。毫無疑問對于這樣的拾音，在拾音位置和方向的選擇上要和相應的鏡頭進行完美匹配，比如在同一位置由攝影機模擬出雙眼的視點，人工頭模擬出雙耳的聽點，才能獲得聲畫同步的效果。用于VR的人工頭拾音技術可以采用多方向的雙耳拾音，例如3Dio公司推出的四方雙耳立體聲話筒（QB：Quad-binaural-microphone）（如圖2所示），它由指向0°、90°、180°、270°的4組雙耳立體聲話筒組成，從而與360°的畫面視角相匹配。其局限在于它只對水平面提供了視角轉換時的信號轉換，在垂直面上沒有這樣的轉換，從而使得垂直面上的視角變化沒有相應的聲音跟隨，另外這種簡化的人工頭結構損失了大量的面部和輪廓干涉，影響了自然HRTF采集的完整性。

原場傳聲器技術20世紀70年代誕生于英國，它是一種球形三維環(huán)繞聲拾音技術。一階原場系統（FOA：First Order Ambisonics）包含四個心形指向的振膜，分別指向左前（LF）、左后（LB）、右前（RF）、右后（RB），所拾取的原始信號叫做A格式（A-format），經過處理后得到的輸出信號稱為B格式（B-format）。B格式包含4個通道的信息，即全方向的W信號、前后深度的X信號、左右寬度的Y信號和上下高度的Z信號，形成一種擴展后的三維化M/S拾音制式，從而獲得水平面和垂直面的三維信息，再解碼成不同的方位信息來與監(jiān)聽揚聲器的設置相匹配。這一拾音制式在適應不同格式的揚聲器設置上具有很大的靈活度，它輸出的信號可以根據需要解碼成2.0、5.1、7.1甚至22.2的格式，也可以編碼成Binaural格式。常見的原場話筒有帶4個振膜的CoreSound TetraMic（如圖3所示）、TSL SoundField SPS 200，以及具有更多通道數的高階原場系統（HOA：High Order Ambisonics），例如Eigenmike Microphone（如圖4所示）。一階原場系統的缺點是空間解析度不夠好，高階系統通過增加通道數來解決這一問題，通道數和階數的關系是：

通道數 = （階數 + 1）2

因此，二階原場系統包含9個通道，三階原場系統包含16個通道，四階原場系統包含25個通道，如此遞增，使得系統輸出的數據量大大增加，運算的復雜程度也大為提高。目前國外最高做到五階原場話筒，用32個話筒采集，再通過矩陣變換獲得36個輸出通道。由于記錄了全方位的信息，用于VR的原場系統可以支持任何方向的視角轉換。

toimg (1).jpg

Oculus公司的軟件工程師Pete Stirling對雙耳拾音技術（采用3Dio FreeSpace Omni）和聲場合成技術（采用CoreSound TetraMic）做的拾音對比實驗表明，在空間定位的精確度方面，四方雙耳技術（QB：Quad Binaural）具有人工頭拾音的一些缺點，比如由于人工頭和真人頭之間的差異導致空間定位的誤差，以及前后方位的混淆，最大的問題出現在隨著視角轉換兩組雙耳話筒混合時的相位抵消，造成銜接部分聲場定位不清晰。相比而言，聲場合成技術沒有這些問題，在三維空間的表現上有明顯的優(yōu)勢，但一階原場話筒的空間還原精確度不夠高。在音質方面，雙耳話筒會有一些染色，而原場話筒的頻響非常平直。這兩種方式都能很好地拾取現場反射聲，獲得良好的臨場感。

利用上下兩層傳聲器組合來拾音的方式類似于傳統環(huán)繞聲拾音方式，組合的模式也往往借鑒已有的三維揚聲器布局，比如模仿7.1.4的布局，下層設置7只傳聲器，上層設置4只。這類拾音方式獲得的聲音聲道分離度較好，但在聲場整體感和連貫度上有所欠缺。

除了現場直接拾取3D環(huán)繞聲之外，出于影片敘事的需要，往往還要補充拾取更多的聲音細節(jié)。采用的方法和傳統電影的拾音方法類似，比如利用有線或無線話筒拾音，單獨補錄一些音響效果用于后期的編輯等。通過現場拾音和補錄，聲音素材可能來源于雙耳話筒、原場話筒以及非原場型的吊桿話筒、領夾式話筒、平板話筒、立體聲話筒、環(huán)繞聲話筒等。后期制作時，非3D格式的聲音素材需要進行空間化處理，包括那些從音響資料庫里挑選的素材，使之成為來自三維空間的聲音（spatial audio）。

聲音編輯與混錄環(huán)節(jié)

VR電影聲音編輯在技術上和傳統電影聲音編輯的不同之處在于：

3D視頻還放及其與音頻工作站的同步

音視頻頭部跟蹤，即視頻觀看視角和音頻聽音角度的同步轉換

聲音的空間化處理（需要相應的軟件支持）

聲音母版的格式選擇，比如Dolby Atmos Print Master、Ambisonics等

實時雙耳渲染（binaural rendering）監(jiān)聽

3D視頻還放及與音頻工作站的同步

用于聲音編輯的3D視頻還放，最好是將球形視頻展開之后在電腦屏幕上還放，同時能利用鼠標調整觀看角度。很顯然帶著頭戴式顯示設備是無法完成聲音編輯的。支持上述還放模式的視頻軟件有KolorEyes（已被GoPro公司收購，也叫GoProVRPlayer）等。同時，Spook公司開發(fā)的SpookSyncVR軟件，以OSC（Open Sound Control的簡稱）通信協議將Kolor Eyes播放器和Reaper音頻工作站同步起來，不僅能進行播放時間碼的同步，還能進行音視頻視聽角度的同步，使三維聲音編輯變得非常直觀、靈活，聲音編輯師在編輯過程中可以實時了解還放效果。

toimg (2).jpg

在音視頻視聽角度的同步上，SpookSyncVR將視角方位參數與音頻工作站上安裝的ATK（Ambisonic Tool Kits）插件的聽音方位參數鎖定在一起。pitch對應于tumble，代表上下偏轉，yaw對應于rotate，代表水平偏轉。兩者在360°范圍內的變化完成了三維空間里的視聽角度變化。參數鎖定之后，音視頻視聽角度就能實現同步轉換了，ATK上的空間顯示界面能直觀地體現出這種變化。

有的軟件可以播放展開的三維視頻，但不支持調整觀看角度，而是在視頻上標出角度坐標，更精細的設計還包括標出網格讓三維坐標更清晰。觀看這樣的視頻，聲音編輯師或混錄師無法看到實時頭部跟蹤的畫面，因此需要對不同坐標的畫面有足夠的經驗，結合頭戴式顯示設備的觀看體驗來完成聲音制作。杜比VR全景聲工具里的Video Player可以和Pro Tools同步在一起，以等量矩形投影的模式在顯示器上觀看展開的畫面，或者通過Oculus頭戴式顯示設備來觀看3D視頻，它可以把頭部位置信息傳送到杜比VR全景聲工具的VR Renderer中，實時渲染出帶頭部跟蹤的監(jiān)聽效果。

音頻工作站及空間處理插件

VR聲音編輯的工具首先是能支持多路母線輸出的音頻工作站以及能完成三維空間聲音處理的插件。常見的音頻工作站有ProToolsHD、Nuendo、Reaper等，只要能支持多路母線輸出的工作站都可用于VR聲音制作。ProTools最多支持8路（7.1）母線輸出，Nuendo最多支持12路（11.1）母線輸出，Reaper最多支持64路母線輸出。Dolby Atmos需要的輸出通路最少12路（7.1.4）、最多64路，Ambisonics需要的輸出通路最少4路（一階原場系統），Binaural需要兩路輸出通路。

VR聲音制作的重點是在三維空間內的聲像定位（ 3D panning）和三維空間感處理（3D reverb），這兩項工作需要單獨的全景聲制作軟件來完成。用于VR的杜比全景聲軟件（Dolby Atmos for VR）包含四個工具，分別是Dolby Atmos Panner Plug-in for Pro Tools、VR Renderer、Monitor Application和Video Player，分別完成3D聲像定位和元數據生成、將音頻和元數據進行Dolby Atmos混錄并輸出編碼為標準“杜比數字+”（Dolby Digital Plus）的雙耳渲染信號、對所有混錄對象的空間定位和電平動態(tài)進行監(jiān)看、視頻還放。其聲像定位所參考的三維空間是以鞋盒（shoe box）為模型的矩形立方體，在此混錄師可同時管理至多128路音頻文件，其中音床（bed）部分為9.1聲道的靜態(tài)基礎聲，聲道輸出是固定的，對象（object）部分最多可使用其余的118路，這是單獨的動態(tài)音頻，可以在矩形立方體的任意位置完成定位、移動等。監(jiān)聽時可以分別對音床和對象進行監(jiān)聽，并能實現實時雙耳渲染監(jiān)聽。輸出的聲音母版格式為DolbyAtmos Print Master，考慮到適配其他平臺，杜比VR全景聲工具還能將制作完成的全景聲輸出成Ambisonics的B格式（目前只支持一階原場格式），以滿足YouTube等平臺的需求，以及形成5.1、7.1的下混輸出。Dolby Atmos VR Panner作為ProTools的插件使用，而新版Nuendo已實現原生支持Dolby Atmos Panner功能，不需要安裝插件，用一根網線和杜比渲染與母版處理設備（RMU）相連即可進行Atmos格式的聲音制作。空間化方面，杜比VR全景聲工具不帶空間處理功能，需要用單獨的混響器或房間仿真軟件來形成空間感。AudioEase公司新近推出的Indoor旗艦卷積混響插件，最大可提供9路混響輸出，原生支持Dolby Atmos格式。

Ambisonics作為一種比較方便的中間格式，吸引了一些廠家來開發(fā)Ambisonics插件包。注意Ambisonics的三維空間模型和DolbyAtmos的三維空間模型有所不同，它是以聽音位置為中心的圓球體，通過水平方位角（azimuth）、高度（elevation）、距離（distance）可以定義聲像在球體中的位置，通過寬度（width）可以定義聲像的大小。這兩種空間模型會帶來不同的聽音感受，例如與聽音者保持相同距離的前方聲像移動，在Dolby Atmos格式中，聲像可以從左到右沿直線移動，而在Ambisonics格式中，這個移動是以圓弧的軌跡進行。市面上已有的Ambisonics軟件有二、三十種，用作工作站插件的有ATK（The Ambisonic Toolkit，用于Reaper工作站）、NoiseMakers公司的Ambi Pan和Ambi Head（有VST、AU、AAX格式）、其他公司的ambiXplugin suite（VST格式）、TOA plugins（VST格式）、Ambisonic Studio B2X plugins（VST、AU格式）、WigWare（VST格式）等。各插件的功能有一定區(qū)別，但都是圍繞Ambisonics格式所做的聲像定位、格式轉換、雙耳渲染監(jiān)聽等。ATK插件通過一階原場信號編碼（FoaEncode）能把普通話筒拾取的信號、合成信號等統統轉換成Ambisonics格式，讓不同來源的信號可以和原場話筒拾取的信號在同一個平臺上編輯。要注意雙耳話筒拾取的信號由于包含有自然HRTF，無法在編輯中與采用非雙耳技術拾取的信號相兼容。ATK的空間成像工具（imaging）可以讓聲像沿某條軸線旋轉，生成相對于軸線對稱的鏡像、控制聲像大小等。在監(jiān)聽上，ATK可以通過一階原場信號解碼（FoaDecode）選擇不同的解碼監(jiān)聽，如binaural、標準雙聲道、5.0監(jiān)聽等。NoiseMakers的Ambi Pan將單聲道或雙聲道立體聲信號轉換成AmbisonicsB格式以4路信號輸出，能實現在三維空間的聲像定位、聲像寬度控制等。AmbiHead將制作完成的Ambisonics信號渲染成binaural信號，進行實時監(jiān)聽。渲染過程中還能進行空間寬度控制、沿Z軸的旋轉等，它里面包含了專用于精確回放B格式信號的HRTF濾波器，也可以通過SOFA導入用戶自定義的HRTF參數，達到個人化雙耳渲染的目的。

NoiseMakers的PANO（Procedural Ambient Noise Orchestra）Player 是一款實時多通路音效合成軟件，預置了液體、風、火的效果，還可以讀取用Pano Composer制作的其他效果。它可以對這些效果實現從binaural信號到最多7.1路信號的輸出，并在空間位置和寬度上進行實時控制。

NoiseMakers還推出了一款將普通單聲道、立體聲、環(huán)繞聲（5.1或7.1）信號轉換成雙耳信號的插件Binauralizer，轉換過程中可以控制聲像的寬度和位置，選擇內置的HRTF函數或導入用戶HRTF函數。

toimg (9).jpg

空間化方面，一些軟件配備了Ambisonics格式的混響處理功能，如Wigware的Ambisonics Reverb混響包，可以方便地對原場信號添加混響。

另一個3D音頻制作工具套裝為Two Big Ears公司開發(fā)的3Dception Spatial Workstation。隨著Two Big Ears公司被Facebook收購，該套裝也改名為Facebook 360 Spatial Workstation，為VR影視及游戲免費提供制作工具、編碼器和渲染引擎。3Dception作為ProTools、Reaper、Nuendo等工作站的插件使用，能完成聲音的三維空間定位和房間仿真，并且支持Oculus Rift、三星Gear VR等主流頭顯，可以基于頭部跟蹤數據對音頻進行實時渲染。

toimg (11).jpg

toimg (12).jpg

Oculus Audio DAW Spatializer是一款VST或AAX格式的房間仿真插件，可以配合工作站使用來完成聲音的空間化處理。房間仿真功能對聲音所處的空間模型進行定義，設置出房間大小和墻面的吸聲情況，結合3Dpanner的使用，調節(jié)X、Y、Z軸參數來完成聲音在房間里的定位，以及通過聲壓級衰減來確定聲源的距離，可以對基于對象的聲源進行空間化處理，獲得聲音的方位感和空間感。

監(jiān)聽

VR電影多采用耳機監(jiān)聽，因此要對工作站的監(jiān)聽信號進行實時雙耳渲染（biaural render）并輸出給耳機。用于VR聲音制作的插件提供了雙耳渲染輸出，渲染方法是通過加入現有的HRTF函數來仿真，使耳機中的聲音重現編輯及混錄時聲音在三維空間中所處的位置。

雙耳渲染可以在兩個環(huán)節(jié)完成，一個在制作環(huán)節(jié)，一個在用戶端。前者在VR聲音制作插件中進行雙耳渲染，比如杜比VR全景聲插件的VR Renderer功能，還可以使用頭戴式顯示設備如Oculus Rift監(jiān)看全景視頻，同時進行頭部跟蹤仿真監(jiān)聽用戶端不同視角的聆聽效果。后者將雙耳渲染功能集成在用戶端app中，將接收到的源信號（Dolby Atmos信號、B格式信號等）進行雙耳渲染，實現虛擬全景聲監(jiān)聽和頭部跟蹤。

聲音導出環(huán)節(jié)

編輯與混錄完成之后，需要導出聲音母版，母版格式如Dolby Atmos、Ambisonics等，然后與視頻進行封裝，得到MP4、MPEG-TS（Mpeg Transport Stream，也可簡寫為TS）、VPx等格式的文件送往播放平臺。杜比VR全景聲制作工具輸出的母版格式為Dolby Atmos Print Master，然后將母版文件編碼為“杜比數字+”，封裝格式支持MP4和TS，也支持在線流媒體分發(fā)格式HLS（http live streaming）、Smooth Streaming和Mpeg DASH，其Atmos數據流包含了所有的對象信息，可以獲得精確的定位。Ambisonics用于與相應格式的播放設備或平臺兼容，由于它將音床和對象打包在一起，定位的精確度不如Atmos數據流。Dolby Atmos VR APP SDK中包含了雙耳信號編碼和回放渲染，可以接收陀螺儀的數據來獲得不同聽音角度的聲音。

Ambisonics的母版輸出有兩種類型，即ambiX（WYZX標準）和FuMa（WXYZ標準），都是4通路的ambisonics數據流。將該數據流解碼之后進行HRTF仿真，就獲得了用于耳機監(jiān)聽的雙耳信號。有的app播放平臺集成了ambisonics解碼和binaural編碼功能，能直接接收ambisonics信號，如Youtube 360 videos支持ambiX信號，并將該格式的文件轉換成binaural信號輸出。

在HRTF編碼上，由于ambisonics系統的特性，進行雙耳渲染可以達到很好的效果。例如，將WXYZ信號進行解碼，輸出8路信號，即以圓心為中心向外伸展的八個均分方向（前、前左、左、后左、后、后右、右、前右），然后進入HRTF編碼器，經HRTF函數處理后輸出左、右耳信號給監(jiān)聽。德比大學（University of Derby）的Bruce Wiggins博士在ambisonics轉binaural的仿真實驗中發(fā)現，解碼后的一階原場信號對雙耳時間差（ITD）的表現較好，但無法正確還原基于雙耳聲級差（ILD）的一些頻率。解碼后的三階原場信號能準確還原各個角度的雙耳時間差響應，對雙耳聲級差響應的還原程度有所提高，但在某些頻率上還有出入。如果階數增加到八階，則對雙耳時間差和雙耳聲級差響應都能準確還原。

toimg (13).jpg

隨著VR電影聲音制作的發(fā)展，相關的制作工具還會進一步開發(fā)出來，現有的制作工具功能也會進一步完善和強化，比如音頻工作站輸出母線的增加、3D混響器的開發(fā)等，不同平臺之間的交換性也會增強。從前期拾音、后期編輯混錄到母版輸出及平臺播放的一體化解決方案，正在成為技術專家關注的重點。同時，游戲聲音制作的工具和制作方式也開始為VR電影聲音所借鑒，為聲音的表現提供更加多元而便捷的途徑。

相信對VR技術的掌握對于未來短視頻的制作將會有很大的幫助。

轉自：VR資源網

內容由作者原創(chuàng)，轉載請注明來源，附以原文鏈接

http://www.beism.cn/news/1614.html