浙江裕瀚技術團隊從客戶長期技術需求點出發(fā),立足自身團隊長期實踐經驗,為大家分享幾款常見開源流媒體服務軟件。
1.1 簡介
EasyRTSPServer是由EasyDarwin開源社區(qū)開發(fā)的一套非常穩(wěn)定、易用、支持多種平臺(包括Windows/Linux 32&64,Android,ARM hisiv100/hisiv200/hisiv300/hisiv400/hisiv500/hisiv600等平臺)的RTSP Server組件。
地址:https://github.com/EasyDarwin/EasyRTSPServer
圖1:典型RTSP直播中服務端-客戶端交互過程
1.2 場景應用
適用于監(jiān)控安防行業(yè)IPCamera、NVR、編碼器、安卓監(jiān)控設備等,此外支持實時性極強的RTSP協(xié)議,也在在線教育、遠程會議、實時賽事直播等即時視頻傳輸場景有廣泛應用;
1.3 性能介紹
1)簡化的RTSP流程:相比直接使用live555等復雜RTSP庫,EasyRTSPServer提供了簡單的SDK調用接口,大大降低了開發(fā)難度。
2)豐富的示例代碼:提供了多個平臺的調用示例,如Android攝像頭采集、Windows桌面抓取等,加速開發(fā)進程。
3)高效的性能:經過實測,能穩(wěn)定支持高清晰度視頻的并發(fā)傳輸,滿足大規(guī)模部署需求。
4)周全的文檔支持:詳細的技術文檔和調用流程圖,幫助開發(fā)者快速理解和應用。
2.1 簡介
SRS是一個簡單高效的實時視頻服務器,支持RTMP、WebRTC、HLS、HTTP-FLV、SRT等多種實時流媒體協(xié)議。Oryx是一個一體化、開箱即用、開源的視頻解決方案,可部署在云上或自建機房,以直播和WebRTC等能力賦能你的業(yè)務。
地址:https://www.ossrs.net/lts/zh-cn/
圖2:SRS4.0 單節(jié)點服務器架構
2.2 應用場景
1)安防領域:音視頻的垂直細分行業(yè)中龐大的市場之一,各種嵌入式的攝像頭正在和互聯(lián)網產生連接,SRS是其中關鍵的一環(huán),實現(xiàn)了GB28181接入,轉換成互聯(lián)網直播和WebRTC協(xié)議。
2)在線教育:支持大規(guī)模在線課程直播,保證教學質量和穩(wěn)定性。
3)新聞直播:快速響應新聞事件,實現(xiàn)實時轉播。
4)電競賽事:低延遲傳輸,確保觀眾不錯過任何精彩瞬間。
5)企業(yè)協(xié)作:提供高效的遠程辦公解決方案,包括視頻會議和屏幕共享功能。
6)社交媒體:整合到社交應用中,讓用戶可以輕松分享即時動態(tài)。
2.3 性能優(yōu)勢
1)基于協(xié)程技術,無異步回調難以維護的問題,SRS支持云原生標準(Docker鏡像、K8s部署、可觀測性日志和監(jiān)控指標等),提供Oryx無門檻應用;
2)SRS聚焦于實時流媒體網關,實現(xiàn)實時流媒體協(xié)議的接入和互相轉換以及不斷迭代,比如RTMP、HLS、WebRTC、HTTP-FLV和SRT等;
3)SRS是高性能流媒體服務器,是同類服務器的2~3倍性能,提供非常完整的概念和一致性設計,實現(xiàn)高效的流媒體應用。
3.1 簡介
ZLMediaKit是一個基于C++開發(fā)的開源流媒體服務器。它提供了高性能的音視頻處理能力,支持常見的流媒體協(xié)議,如RTSP、RTMP、HLS和HTTP-FLV,并且具有低延遲和高并發(fā)處理能力。
地址:https://github.com/ZLMediaKit/ZLMediaKit
3.2 應用場景
1)視頻直播:視頻直播是ZLMediaKit最常見的應用場景之一。無論是大型活動的現(xiàn)場直播,還是個人主播的直播間,ZLMediaKit都能夠提供穩(wěn)定、低延遲的流媒體傳輸服務。
2)視頻點播:除了直播,ZLMediaKit在視頻點播方面也有廣泛的應用。通過支持HLS等協(xié)議,ZLMediaKit可以為用戶提供高質量的視頻點播服務,滿足用戶隨時隨地觀看視頻的需求。
3)安防監(jiān)控:在安防監(jiān)控領域,ZLMediaKit也有著重要的應用。通過支持RTSP協(xié)議,ZLMediaKit可以接入各種監(jiān)控設備,實現(xiàn)視頻監(jiān)控的實時傳輸和錄制。
4)教育培訓:在在線教育和培訓領域,ZLMediaKit可以用于實時課堂的直播和錄播,幫助教師和學生實現(xiàn)遠程教學和互動。
3.3 性能優(yōu)勢
1)高性能:ZLMediaKit采用C++編寫,充分利用了C++在性能和資源控制上的優(yōu)勢。其內部實現(xiàn)了高效的網絡IO模型,支持多線程和異步IO操作,能夠在高并發(fā)環(huán)境下保持穩(wěn)定運行。使用多路復用/多線程/異步網絡IO模式開發(fā),并發(fā)性能優(yōu)越,支持海量客戶端連接。
2)低延遲:支持畫面秒開、極低延時(500毫秒內,最低可達100毫秒)。 提供完善的標準C API,可以作SDK用,或供其他語言調用。
3)靈活擴展:ZLMediaKit具有高度模塊化的設計,開發(fā)者可以根據自己的需求,靈活地進行功能擴展和定制。其豐富的API接口和插件機制,使得開發(fā)者可以方便地集成第三方功能或進行二次開發(fā)。
4)服務完善:提供完整的MediaServer服務器,可以免開發(fā)直接部署為商用服務器。 提供完善的restful api以及web hook,支持豐富的業(yè)務邏輯。 打通了視頻監(jiān)控協(xié)議棧與直播協(xié)議棧,對RTSP/RTMP支持都很完善。全面支持H265/H264/AAC/G711/OPUS。
]]>裕瀚科技產品部門期待能為廣大合作伙伴和客戶提供更加專業(yè)、全面的技術支持,與您攜手共創(chuàng)美好未來。
Q1:壓縮前后視頻質量如何保證,能否滿足相關部門規(guī)范要求?
A:1)壓縮前后視頻總幀數(shù)、視頻分辨率、總時長均不發(fā)生改變;2)壓縮后視頻不影響人工智能分析精度,主觀肉眼無差;3)壓縮后視頻質量主觀視覺無損(圖像質量評級5),客觀質量PSNR≥32 dB,均滿足公安部對安防監(jiān)控施工的規(guī)范。
Fig1 壓縮前后參數(shù)對比圖
Q2:壓縮后視頻兼容性如何?
A:1)編碼格式:視頻壓縮編碼器支持H.264、H.265格式互轉,也可以保留原有格式輸出;2)設備支持對海康大華等SMART264/SMART265私有協(xié)議進行兼容互轉,一般統(tǒng)一建議按照H.264標準數(shù)據流輸出;3) 支持ONVIF,GB28181等協(xié)議輸出,保障數(shù)據安全性和公安部對視頻安防協(xié)議要求。
Fig_2 各類編碼格式互轉
Q3:設備對高低溫環(huán)境運行狀態(tài)如何?
A:1)設備支持-20~70℃環(huán)境中正常運行工作;2)支持在-10℃以內設備冷啟動;3)設備歷經國家電網、中石化/中石油/中海油、中船等高危高標準行業(yè)長期考驗,在網穩(wěn)定運行設備超過20000臺。
Q4:設備部署對網絡架構影響?
A:1)設備單端部署,后端無需專用解碼設備;2)設備并聯(lián)進入交換機,對原有網絡架構不影響。
Fig_3 單端并聯(lián)部署拓撲圖
Q5:設備穩(wěn)定性運行如何保障?
A:設備按照電信級設備要求設計,單設備內置定時重啟機制,支持設備遠程升級;多設備由視頻管理平臺統(tǒng)一管理,管理平臺內設故障遷移和實時告警機制,當設備出現(xiàn)故障時,平臺發(fā)出告警信號并且同時啟動故障遷移機制,保證系統(tǒng)穩(wěn)定運行。
Q6:產品資質情況如何,是否獲得公安部認可?
A:編碼器產品通過嚴格的公安部一所檢測報告、ISO9000質量管理體系認證、軟件產品認證,浙江電子所評測。
Q7:交換機型號如何選擇?
A:交換機性能要求較好,建議參考型號性能參考型號:DGS-1210-28(24口)、DGS-1210-52(48口)。選擇主要參照點有以下三個:1)換機的背板交換容量;2)交換機的緩存容量;3)交換機單端口的收發(fā)地址數(shù)量。
Q8:視頻壓縮效果如何?壓縮比如何設置?
A:常規(guī)動態(tài)場景(交通,地鐵)壓縮比設置在4-8倍左右為宜,普通場景(園區(qū),辦公)壓縮比設置在8-12倍左右為宜,靜態(tài)場景或衛(wèi)星場景壓縮比設置為15-30倍。
Q9:存儲型號如何選擇?
A:目前公司200路以上項目推薦使用大華EVS磁盤陣列,起始的DH-EVS5016S(16盤位)、DH-EVS5024S-R(24盤位)、DH-EVS5036S-R(36盤位)及DH-EVS5048S-R(48盤位),這些型號存儲使用ONVIF協(xié)議可接入最少200路視頻,同時硬盤支持最大10T型號。
Q10:攝像頭存儲容量計算?
A:1080P攝像頭使用4Mbps碼流存儲,一天存儲容量約43GB,一個月約1.3TB。方案需要考慮兩點:1)硬盤實際可用容量為標稱值的90%,比如6TB硬盤實際可用容量約為5.4TB;2)存儲空間設計時需要預留20%以上冗余。
參考文獻
《數(shù)字視頻安防監(jiān)控系統(tǒng)基本技術要求》
《視頻安防監(jiān)控系統(tǒng)工程設計規(guī)范(GB50395)》
《視頻圖像重壓縮評測指標與方法技術白皮書T/PVIT》
《民用閉路監(jiān)視電視系統(tǒng)工程技術規(guī)范(GB 50198-2011)》
《安全防范監(jiān)控數(shù)字音視頻編解碼技術要求(GB25724-2010)》
《安全防范視頻監(jiān)控聯(lián)網系統(tǒng)信息傳輸、交換、控制技術要求(GB28181-2016)》
《信息安全技術網絡交換機安全技術要求(GB21050-2007)》
作者簡介
賈春華:裕瀚科技產品總監(jiān),多項發(fā)明專利,從事視頻編碼、超高清圖像處理等技術研究、開發(fā)及產品化工作。15年音視頻處理從業(yè)經驗,曾任職于神州數(shù)碼、中慶技術等科技企業(yè),多次從0到1主持或深度參與音視頻產品開發(fā)設計經歷。
]]>1. 視頻內容本質
視頻是由一系列的連續(xù)圖像幀序列組成,圖像幀的連續(xù)播放則呈現(xiàn)出動態(tài)影像(見Fig_1)。所謂視頻壓縮即視頻編碼技術,其目的是通過壓縮算法來去除視頻信息中的冗余,達到減少視頻文件空間占用的效果。比如監(jiān)控攝像頭經過采集后生成原始視頻,不經視頻壓縮編碼處理,其源視頻數(shù)據量非常龐大,在進行傳輸和存儲時,帶寬通道和存儲設備無法對如此巨大的數(shù)據量進行有效支撐(見Fig_2),因此需要將源數(shù)據進行視頻壓縮編碼處理。
Fig_1連續(xù)視頻幀
Fig_2 視頻采集編碼和視頻重壓縮技術示范
2. 視頻業(yè)務流程
區(qū)別于傳視頻處理流程(見Fig_3),智能流程加入了更多人工智能處理技術,是的視頻的呈現(xiàn)方式出現(xiàn)了多元化的變化,除了最初的屏幕呈現(xiàn)外,數(shù)字孿生,智能化應用,虛擬現(xiàn)實等場景變化對視頻最終呈現(xiàn)形式提出了更高的要求,也推動著視頻產業(yè)進入新的發(fā)展階段,并廣泛應用于視頻通信、遠程醫(yī)療、智能制造、智能安防、廣電傳媒等諸多行業(yè)中。視頻編碼技術的蓬勃發(fā)展和視頻多元化應用需求推動整個視頻產業(yè)鏈的重大變革,然而目前視頻編碼技術發(fā)展仍然滯后于視頻發(fā)展的需求,推動視頻技術迭代更新仍是整個產業(yè)的迫切需求。
Fig_3 視頻業(yè)務流程說明圖(傳統(tǒng)流程VS.智能流程)
3. 視頻產業(yè)鏈
視頻產業(yè)鏈由元器件層,設備層,服務層和應用層組成(如Fig_4)。元器件層包括顯示面板,光學器件,圖像傳感器,鏡頭等等元器件以及存儲芯片、圖像處理、視頻編碼芯片,處理器芯片、以太網口、PHY等,是整個視頻產業(yè)的基礎支撐。設備層包括4G/WiFi等無線、有線寬帶、衛(wèi)星傳輸?shù)染W絡傳輸設備以及手機/PC/平板、NVR/解碼器、TV/機頂盒、投影顯示、VR/AR頭顯等終端呈現(xiàn)設備。服務層包括視頻云服務、視頻方案服務、安全服務、增值服務、集成服務等,服務層是視頻產業(yè)鏈的核心環(huán)節(jié),也是國內各大廠商競爭最激烈的行業(yè),根據服務的提供方式可分為服務提供與方案自研兩大類。應用層的細分場景是視頻產業(yè)鏈的生命力所在,目前已經滲透到廣播電視、監(jiān)控安防、教育辦公、醫(yī)療健康、智能交通、智能制造等諸多行業(yè)中,基于該領域的創(chuàng)新是千行百業(yè)數(shù)字化轉型的重要賦能力量。
Fig_4 視頻產業(yè)鏈結構圖
4. 視頻壓縮本質
視頻數(shù)據之所以能夠內編碼壓縮是因為視頻數(shù)據中存在大量信息冗余,視頻本質是連續(xù)的圖像幀序列,由于人眼的短暫停留效應產生了運動感,連續(xù)圖像幀之間相似度極高,存在大量的信息冗余。而通過算法去除數(shù)字化視頻數(shù)據中信息冗余,以最精簡的方式予以表達的過程即為視頻編碼。
空間冗余:視頻圖像在水平方向相鄰像素之間、垂直方向相近像素之間的差別很小,具有較高的相似度;
時間冗余:視頻中相鄰幀之間存在很多相似的圖像序列,可利用幀之間的相似性進行壓縮來減少存儲空間;
空間冗余和時間冗余是視頻編碼中最常見的信息冗余,特別是在靜止場景或緩慢移動的場景中,編碼過程中可以通過運動估計、時間預測和變換編碼等技術來去除。
信息熵冗余:人們用于表達某一信息所需要的比特數(shù)總比理論上表示該信息所需要的最少比特數(shù)要大,我們可以根據不同像素的出現(xiàn)概率不同,概率高的像素分配較少字節(jié),概率低則分配較多的字節(jié);
視覺冗余:人的視覺系統(tǒng)對于某些細節(jié)信息的感知能力是有限的,例如在低分辨率或低幀率的情況下,人眼無法分辨某些細節(jié)。編碼時可以一定程度舍棄這部分信息冗余,而幾乎不影響人眼視覺效果。
數(shù)據冗余:在視頻數(shù)據中,可能存在一些數(shù)據冗余,例如在某些場景中,物體的顏色或紋理等屬性是固定的,可以通過對這些屬性進行編碼來減少數(shù)據冗余。
5. 視覺效果概念
隨著電子信息技術的快速發(fā)展,視頻的呈現(xiàn)形式和視覺效果也出現(xiàn)了多元化變化,從開始標清,高清,全高清發(fā)展到藍光、超高清,另外對視頻幀率、色域、色位深也提出了更高要求。
Tab_1 圖像清晰度定義
6. 有損壓縮和無損壓縮
有損壓縮:解碼還原出來的圖像/視頻/語音和原始文件會存在部分信息丟失或被替換的壓縮方式。由于有損壓縮往往壓縮的部分是人類視覺感知不明顯的區(qū)域,壓縮比相對較高,能夠很好適應當前的網絡傳輸和存儲現(xiàn)狀,被廣泛用于互聯(lián)網、安防、教育等行業(yè)。 目前我們在互聯(lián)網和安防領域看到的絕大部分視頻圖像文件(JPEG/JPG/WebP等)和視頻文件(H.264/HEVC/AVS)都是有損壓縮范圍。
無損壓縮:解碼還原出來的圖像/視頻/語音文件和原始文件完全一致。無損壓縮通常用于需要保留原始文件質量的情況下,應用范圍較窄,僅適用于醫(yī)學圖像(DCM)、遙感圖像(TiFF)、高清圖像處理(BMP,PNG)等少數(shù)領域。
Fig_5 圖像壓縮展示
7. 模擬視頻和數(shù)字視頻
模擬信號是指用可連續(xù)變化的物理量所表達的信息,在特定范圍內有無數(shù)多個連續(xù)取值。而數(shù)字信號則在取值上是離散的、不連續(xù)的信號。模擬信號信息密度比數(shù)字信號更高,不存在量化失真,能夠真實物理量盡可能逼近的表達。
Fig_6 模擬和數(shù)字信號表達
(圖左為模擬信號表達,圖右為數(shù)字信號表達)
模擬視頻則是由連續(xù)的模擬信號組成的圖像視頻,是一種隨著時間變化連續(xù)的電信號。在早期我們接觸到視頻影響資料都是模擬視頻,由于其不適宜進行長期存放,難以多次復制,且圖像信號強度會隨著時間遷移而逐漸衰減,難以保持原有圖像視頻畫質而逐漸倍淘汰。
數(shù)字視頻:以數(shù)字形式記錄的視頻,可以通過攝像頭直接采集得到的數(shù)字信號,數(shù)字視頻可進行無數(shù)次復制而不失真,可長期存放,并可以對視頻進行非線性編輯處理等優(yōu)點而成為當前視頻最主流形式。
作者:賈春華 ?
裕瀚科技產品總監(jiān),多項發(fā)明專利,多次從0到1主持或深度參與B端產品開發(fā)和設計經驗,10+年視頻安防技術和產品經驗。
]]>裕瀚科技算法團隊和工程團隊憑借資深多年的視頻編碼技術基礎和長期深耕行業(yè)用戶需求和場景管理經驗,緊緊圍繞視頻編碼數(shù)字化標準體系建設需求,融合工程實施技術與數(shù)字化技術,以客戶為中心,編寫了工業(yè)級視頻超壓縮設備企業(yè)標準(Q/311121 YHKJ 002-2019),并由公司CEO程志剛先生正式批準、發(fā)布并組織實施。該標準制定后多次成為公安部一所和三所的對同行類產品認證依據,得到行業(yè)眾多安防公司的高度認可。
作為視頻壓縮編碼領域的深耕者,裕瀚科技綜合多方用戶需求,征求各行業(yè)企業(yè)和專家意見,將視頻壓縮編碼器產品核心要點制定為企業(yè)標準,嚴格執(zhí)行企業(yè)標準,并向全社會公開,接受行業(yè)客戶與技術專家的監(jiān)督,促進行業(yè)健康發(fā)展與共同進步!
根據公司標準負責人賈春華介紹,該“標準”歷經多次編寫和完善,結合了多年項目實施經驗和行業(yè)用戶需求,具有較高的前瞻性、實用性和可操作性,為視頻智能壓縮設備建設專業(yè)化成套標準體系,對于規(guī)范當前視頻壓縮智能化技術和提升行業(yè)產品標準有著積極的推動作用。
基于圖像視頻編解碼與傳輸技術的持續(xù)發(fā)展和不斷創(chuàng)新,在國內安防和家庭視頻領域已經提出4K乃至8K的高清視頻需求。2018年AOM 聯(lián)盟(Alliance for Open Media,開放媒體聯(lián)盟)發(fā)布了新一代視頻編碼標準——AV1(Alliance for Open Media Video 1);2019 年 3 月,數(shù)字音視頻編解碼技術標準工作組完成了 AVS3 基準檔草案,性能超過 AVS2 編碼 30%左右。2020年,F(xiàn)raunhofer HHI正式宣布了下一代視頻編解碼標準H.266/VVC(Versatile Video Coding)。相比H.264/H.265,VVC進一步優(yōu)化了壓縮質量,在同等畫質下視頻碼率下降50%。
存儲、5G/6G和視頻壓縮關系
隨著存儲技術的不斷進步和5G/6G的發(fā)展,未來存儲和傳輸不再成為瓶頸,那我們視頻壓縮技術的發(fā)展是必要的么?答案是非??隙ǖ??!敖芪乃广U摗钡囊迹杭夹g進步并非減少而是增加資源消費量。雖然各行各業(yè)的技術專家和組織正在努力通過技術創(chuàng)新來發(fā)展更高的圖像視頻壓縮技術來降低整體帶寬和存儲的壓力,實際上壓縮效率的提高會進一步刺激視頻用的需求不斷增長,從1080P到4K/8K/16K乃至VR或元宇宙視頻場景,整體來看就是更高效的壓縮標準推動了視頻行業(yè)的持續(xù)發(fā)展。我相信在未來4K/8K超高清、元宇宙視頻等先進視頻應用會得到進一步發(fā)展。隨著視頻應用的不斷演進,更高效的視頻編碼解決方案也會不斷被提出。
疫情成為智慧安防關鍵詞
過去兩年時間,國內除了用于緊急防疫處理的安防建設項目工程之外,其余方面的智慧安防類建設受限于政府資金、精力等整體進展處于相對滯后的情況。由于疫情的持續(xù)性階段性的爆發(fā),也發(fā)映出當前整個智慧安防建設中存在較多的智能化不足,信息孤島等短板,也給下一階段的安防企業(yè)的產品和解決方案的發(fā)展提供了較為明確的指導方向。如果能抓住疫情下帶來的機遇和考驗,在未來幾年將迎來全面發(fā)展。
雙碳計劃下企業(yè)實現(xiàn)轉型升級
碳達標和碳中和目標已經上升成為國家發(fā)展戰(zhàn)略計劃,雙碳計劃關乎每個企業(yè)和個人,對于企業(yè)而言,加加速倒逼原先粗獷發(fā)展型轉變?yōu)榫G色智慧型。未來這方面將會產生大量的高新科技,幫助企業(yè)在擴大生產的同時,合理利用能源,降低單位產品能耗,提升經濟效益。具體到裕瀚科技,我們則是通過視頻壓縮技術和綜合視頻管理平臺兩大拳頭產品,一方面幫助企業(yè)降低存儲和帶寬成本,節(jié)約海量存儲帶來的電量消耗,另一方面綜合管理平臺能夠完成重點能耗設備管理,能耗能源分析,幫助企業(yè)實現(xiàn)綠色智慧運行。
創(chuàng)業(yè)公司發(fā)展規(guī)劃建議
近幾年來,音視頻技術展現(xiàn)了迅猛的發(fā)展勢頭,在短視頻、直播、安防、元宇宙等行業(yè)都有亮眼的應用案例,已經逐漸成為新時代通信和互聯(lián)網的基礎設施之一。音視頻技術對高清、流暢、實時有著核心要求,但在實際的落地過程中,行業(yè)中仍存在諸多痛點問題亟待解決。裕瀚科技自創(chuàng)立之初就是定位于科技創(chuàng)新型技術企業(yè),緊密圍繞音視頻市場業(yè)務痛點需求打造解決方案。從最初的視頻壓縮產品和視頻接入網關,解決視頻傳輸問題的產品供應商,逐步完善業(yè)務體系,到今天發(fā)展成為視頻物聯(lián)網傳輸管理解決方案供應商。
作者簡介
程志剛,現(xiàn)任裕瀚科技創(chuàng)始人&CEO,畢業(yè)于東南大學自動化系,20+年語音視頻處理技術研發(fā)和市場管理經驗。曾任職于科大訊飛、東方通信、三維通信等高科技上市企業(yè)。
]]>隨著高清視頻技術的發(fā)展,視頻已經成為占據國內數(shù)據量最大的數(shù)據格式。同時隨著智慧城市的蓬勃發(fā)展,直播、短視頻等迅速崛起,視頻呈現(xiàn)出指數(shù)級增長趨勢,在我們的生活和工作中,視頻無處不在。
經過長時間的發(fā)展,視頻憑借其信息豐富,效果直觀的方式,成為了記錄和展示信息最主要的方式。我們知道視頻是由連續(xù)的靜止圖像構成,可以在相對很短的時間內傳遞大量的信息。視頻壓縮與圖像壓縮類似,在視頻編碼壓縮的同時,除去基礎的圖像壓縮之外,需要加入的運動特性壓縮的考慮,才能達到較為滿意的壓縮效果。
有損壓縮:解碼還原出來的圖像/視頻/語音和原始文件存在差異,允許一定程度失真。我們在市面上看到的絕大部分音視頻文件都是經過有損壓縮,由于有損壓縮往往壓縮的部分是人類感官注意不到或者感知頻率較低的部分,有損壓縮被廣泛的用于工業(yè)界相關程序。
無損壓縮:解碼還原出來的圖像/視頻/語音和原始文件完全一致。無損壓縮的比例很低,只應用于少部分的圖像領域,不太適用于語音和視頻領域。主要應用場景:部分尖端醫(yī)學圖像(DCM)、遙感圖像(TiFF)等。
視頻編碼標準:在國際和國內組織的獨立和聯(lián)合開發(fā)中,產生了很多重要的視頻編解碼標準。視頻編碼標準的出現(xiàn),完整地改變了由于各國的電視制式不一致,因此不能直接互通的混亂現(xiàn)象。最早地視頻是1988年誕生地H.261,此后延續(xù)的出現(xiàn)了H.263、H.264/AVC、H.264/HEVC、H.266/VVC。其中H.264和H.265成為現(xiàn)階段互聯(lián)網視頻和監(jiān)控安防等視頻領域應用最廣泛地標準。此外還有AVS系列(AVS1/AVS2/AVS3)、SVAC系列(SVAC1.0/SVAC2.0)、VP8/VP9系列以及最新的AV1等視頻編碼標準。
視頻文件格式:很多初入音視頻領域的新手很容易搞混視頻文件格式(MP4/AVI/
RMVB等)和視頻編碼標準的區(qū)別。我們常見的AVI/MOV/FLV其實是一種視頻封裝格式,是一種視頻信息存儲的方式,一般由相應的公司自行研發(fā)出來,部分視頻封裝格式帶有各自公司的私有的播放器才能播放。我們互聯(lián)網領域常見的類似AVI和WMV是就是由微軟推出的,以及RMVB是由 Real Networks公司推出。這些封裝格式相對應用廣泛,絕大部分播放器都是實現(xiàn)自由視頻播放。監(jiān)控領域巨頭海康威視的PS、PES和大華的DAV的封裝格式相關體系封閉,往往需要該公司自己的播放器才能實現(xiàn)較為完整流暢的視頻播放體驗。
分辨率/像素:視頻分辨率是指視頻寬高的像素數(shù)值,單位Px。像素為視頻寬高像素值的乘積,數(shù)值上等于等于寬X高。我們常見的720P、1080P、4K就是指分辨率1280×720、1920×1080、3840×2160,分別對應100萬、200萬,800萬像素值。
視頻畫質:視頻畫質是指視頻壓縮后圖像和壓縮前的原始圖像的失真程度的描述,失真程度越低,畫質越高。視頻畫質的評價受主觀和客觀評價的影響很大,目前常見的評價畫質標準有PSNR(峰值信噪比),MS-SSIM(層級相似度)、MOS(平均意見分)、MSE(均方誤差)等。
軟件編解碼:通過CPU方式來實現(xiàn)視頻的編碼和解碼過程;
硬件編解碼:通過顯卡GPU或者其他編解碼芯片(海思、TI、瑞芯微、全志、安霸等編解碼芯片)來實現(xiàn)視頻編解碼過程;
優(yōu)劣勢分析:軟件解碼相對而言,視頻解碼過程完整,畫質清晰,能夠解碼全部的視頻格式,但由于通過CPU進行工作,一方面進一步會消耗所剩不多的CPU性能,同時也會產生較大的功耗和造成機器損耗,性價比低。硬件編解碼往往相對視頻播放流暢,但受限于芯片能力的影響,解碼出來的視頻格式受限。由于其相對較低設備功耗和高性價比,成為目前最為主流的視頻編解碼的應用,尤為突出的是顯卡的廣受歡迎便是因其強大的視頻硬件編解碼能力和相關圖形處理能力。
1. 視頻壓縮概述
視頻是由連續(xù)的圖像幀序列組成,圖像的連續(xù)播放呈現(xiàn)出連續(xù)的動態(tài)影像即為視頻。所謂視頻壓縮即視頻編碼技術,是指通過壓縮技術將原始的視頻格式轉化為另一種數(shù)字視頻格式,其目的在于減少文件空間占用。比如攝像頭經過采集后直接生成的原始視頻,不考慮壓縮的話,其視頻數(shù)據量非常龐大,在網絡傳輸和數(shù)據存儲的過程中,帶寬資源和存儲設備無法支撐如此巨大的數(shù)據量,所以在進行傳輸或者存儲前,需要將原始視頻數(shù)據進行視頻壓縮處理。
2. 視頻編解碼器
視頻編解碼器是指一個能夠針對數(shù)字視頻文件或者視頻流進行壓縮和解壓縮的程序或者設備。由于編解碼實現(xiàn)路徑和方式的不同,視頻編解碼器也分為硬件編解碼器和軟件編解碼器。目前主流的視頻編解碼器分為5個系列:H.26X系列(H.264/HEVC/VVC)、AVS系列(AVS1/AVS2/AVS3)、SVAC系列(SVAC1.0/SVAC2.0)、VP8/VP9系列以及最新的AV1。其中AVS系列和SVAC系列均是我國具有獨立知識產權的視頻編解碼標準。評價編解碼器優(yōu)劣的主要評價標準在于:壓縮比的高低、編解碼速度的快慢、編解碼功耗以及解碼兼容性。
3. 視頻壓縮的本質
視頻可以被壓縮是因為前后幀圖像數(shù)據中存在大量的信息冗余,主要可以從以下四類進行探討:
空間冗余: 同一圖像幀內,相近像素之間的差別很小,具有較高的相似度;
時間冗余:視頻中相鄰的前后圖像幀之間,其中發(fā)生變化的像素占整張圖像像素的比例極其微小,存儲運動關系,該特點在監(jiān)控場景中尤為常見;
編碼冗余:不同像素的出現(xiàn)概率不同,出現(xiàn)概率高的像素分配較少的字節(jié),概率低的分配較多的字節(jié);
視覺冗余: 人眼視覺系統(tǒng)對不同像素顏色敏感度不同,編碼時可以丟棄這些冗余的信息,而幾乎不影響人眼視覺效果。
4. 視頻畫質評價
談到視頻壓縮,就免不了要談到壓縮后的視頻畫質。在監(jiān)控領域常見問題就是壓縮后視頻畫質和原始視頻是否有區(qū)別,能否作為證據進行溯源,是否會影響AI智能分析精度等;在互聯(lián)網領域大家就更關注壓縮后視頻畫質是否會出現(xiàn)馬賽克等而影響用戶對視頻美觀程度和流暢度評價。
視頻編碼畫質評價標準主要可以分為主觀評價和客觀評價,其中主觀評價標準是通過人眼直觀觀察進行評分,是最為接近的用戶對視頻畫質的整體反饋。但由于主觀評價的完成需要耗費大量人力和時間,并且受人為的影響因素較大,這里暫時不深入進行討論。
本文將從客觀評價標準簡要闡述下視頻編碼畫質的評價標準,主要介紹目前主流的全參考視頻質量評價模型的兩種視頻評價標準:PSNR(峰值信噪比)、MS-SSIM(結構相似度)。
PSNR:目前最主流的畫質評價方法,被公安部相關機構和互聯(lián)網企業(yè)引用最多的評價方式;PSNR取值20~40之間,數(shù)值越大,畫質越好。
MS-SSIM:通過感知結構信息來評價畫質,其結果更為接近肉眼感知效果;MS-SSIM取值0~1之間,數(shù)值越大,畫質越好。