數字視頻信息分析論文
時間:2022-06-23 07:57:00
導語:數字視頻信息分析論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1、引言
視頻(Video)是源于廣播電視業的術語,指內容隨著時間變化的圖像(Picture)序列,也稱為活動圖像(MotionPicture)。廣義的視頻有電影、電視和計算機動畫等不同類型,狹義上的視頻主要是指電視類視頻。
視頻是一種重要的視覺信息源。隨著各種數字影像設備的發展與遍及,以及多媒體技術和Internet的發展,人們面對的視頻信息種類迅速地增長,如電影、電視、視頻會議、監控錄像等。僅中央電視臺(CCTV)截至2003年就保存有約30萬盤視頻節目,目前CCTV開設有15套節目(日播出量超過300小時,其中約有1/3是首播節目)、6套付費電視頻道,以每天保存80—90h的首播節目計算,每年新增節目將會達到3萬小時以上[1]。面對如此巨量的視頻信息,人們迫切希望改進傳統的對視頻數據的線性查找方式,研發出能夠快速定位和部分析取的視頻數據獲取技術。要達到這樣的目標,首先需要將視頻數據有序化,即對視頻信息進行有效的索引,使之便于檢索[2]。
從目前來看,數據庫信息、文本信息、圖形圖像信息的檢索已進入成熟期,已有許多實用的檢索工具和產品,而視頻信息的檢索目前還處于研究階段,雖然已有一些實驗原型和個別針對特定領域的檢索工具,但目前還無普遍實用的工具和產品。其主要原因是,與其他信息(如文本、圖像等)相比,視頻信息主要有如下一些特點:
(1)信息內涵豐富;
(2)無“顯式”的結構;
(3)存檔方式、視頻格式和編碼標準較多;
(4)數據量大。
近年來,許多研究人員在文本信息、圖形圖像信息檢索技術的基礎上,對視頻信息檢索技術進行了大量的研究,研究內容涉及視頻信息的存儲組織、內容分析、特征抽取、索引方法、匹配算法、檢索算法、檢索結果的評估和視頻信息的表現形式等諸多方面。本文在分析視頻信息的隱含結構基礎上,研究視頻信息的索引對象、索引模型和索引結構。
2、視頻信息的隱含結構與索引對象
目前的視頻文檔都是以節目(或稱為作品)為單位表現某個主題,其數據在組織時無“顯式”的結構和索引信息(如同一本無目錄和章節標題的書籍),用戶只能采用線性方式觀看和欣賞。傳統的視頻信息的消費往往是以節目為單位進行的,即查找某一電視節目(電視片、廣告片、某場體育比賽等),但不同類型的用戶(消費型、研究型、創作型和應用型[3]),在不同的場合下(通過電視、網絡、PDA、移動電話等)可能有不同的視頻消費要求,即可能需要以鏡頭、場景或故事單元為單位進行消費。例如,籃球教練需要查找“姚明進攻”的視頻鏡頭、司機在“塞車”時利用PDA收看某場足球比賽的精彩片段或畫面等等。所以,對視頻信息進行“結構化”,并針對不同的結構層次對象進行索引,是實現基于內容的視頻信息檢索的基礎。
2.1視頻信息的隱含結構
從形式上看,視頻信息本身是一種無“顯式”結構的流媒體,即數據流本身無明顯的“章節、段落”結構,但從構成和語義上看,視頻信息蘊涵著幀、鏡頭、場景、故事單元和節目這樣的層次型結構。其中,幀、鏡頭和節目是視頻信息的物理組成成分,而場景和故事單元則是語義上的邏輯組成成分。
視頻是內容隨著時間變化的圖像序列,其最小組成單位是幀(Frame),即一幅幅靜止圖像;針對一個對象或事件的、攝像機一次拍攝產生的幀集合稱為一個鏡頭(Shot);發生在某一場地的、針對某一對象、具有相對獨立的敘事情節的一個或多個連續鏡頭構成一個場景(Scene);故事單元(StoryUnit)是指針對某一事件的、具有相對完整的故事情節的一個或多個連續場景的集合,例如電視連續劇中的每一節節目、NBA比賽中的每一節比賽;節目(Program)是獨立的完整的視頻文檔,通常表述一個完整的故事或事件。視頻信息的這種隱含結構,可用如下的數學模型表述:
shot={frame[,i]│i>1}
scene={shot[i]│i≥1}
story_unit={scene[,i]│i≥1}
program={story_unit[,i]│i≥1}
2.2視頻索引對象的分割與選取
視頻信息蘊涵著幀、鏡頭、場景、故事單元和節目這樣的層次型結構,為了滿足不同的應用需求,視頻信息的索引應在各個層次上分別展開,即對視頻信息的索引,不僅要以節目為對象,而且需要在視頻分割的基礎上以幀、鏡頭、場景和故事單元為對象分別進行索引。節目和幀是視頻信息固有的自然層次,而鏡頭、場景和故事單元則要通過對視頻內容的分析、采用各種算法進行分割才能得到。
(1)幀對象的選取
雖然幀是視頻信息固有的自然層次,但一個視頻文檔由太多的幀組成(每秒25—30幀),且幀之間存在大量的信息冗余以及用戶不感興趣的幀圖像,這就需要采取一定的策略進行幀的“選取”,找出一定數量的“代表幀”(也稱為“關鍵幀”)。
目前代表幀的選取大多是在鏡頭分割的基礎上,以鏡頭為單元分別進行代表幀的選取,選取算法主要是以鏡頭的首幀、尾幀或中間幀為代表幀。筆者認為,代表幀的選取還應考慮兩個方面:一是對于不同體裁(類型)的視頻,應采用不同的選取方法,且代表幀的數量也應區別對待;二是可以通過幀圖像的相似性比較,對幀進行聚類,從幀數最多的類中選取代表幀(因為持續時間長的畫面往往更具有代表性)。
(2)鏡頭分割
鏡頭是視頻節目構成的基本單元,也是視頻消費時的最小邏輯單元。一個完整的視頻節目通常由若干個鏡頭組成,例如一部2小時的電影通常由數百個鏡頭組成。鏡頭之間的切換形式主要有突變和漸變兩大類,漸變又可分為隱現(Dissolve)、淡入/淡出(Fade)和擦除(Wipe)等不同類型,文獻[4]列出了常見的10種鏡頭變換形式,在實際的應用中可能有上百種鏡頭變換效果。
采用人工方式進行視頻分割是十分費時的。近十多年來,電子工程和計算機科學等領域的學者從不同的角度研究出了多種自動鏡頭檢測的方法,其基本思想大多為比較相鄰幀之間的相似性。目前鏡頭檢測技術的方法分類主要有以下三種:
①根據所處理的視頻是否為壓縮數據進行分類,如文獻[4]所述,將鏡頭變換檢測方法分為基于解壓的全圖像序列的識別方法、直接基于壓縮視頻的識別方法和基于確定變換模型的識別方法;
②根據檢測的鏡頭變換類型進行分類,如文獻[5]所述,將鏡頭變換檢測方法分為突變檢測(HardCutDetection)、淡入/淡出檢測(FadeDetection)和隱現檢測(DissolveDetection)等類型;
③根據檢測時所采用的視頻特征進行分類,可以將鏡頭變換檢測方法分為基于亮度/顏色(Intensity/color)的檢測、基于紋理(Texture)的檢測、基于邊緣(Edges/contours)的檢測、基于運動(Motion)信息的檢測,等等。
鏡頭突變檢測的技術相對比較成熟,一般采用基于顏色直方圖比較法即可得到較高的準確率。但對于形式多樣的漸變切換檢測,通常需要采用多種檢測手段進行綜合檢測,這也是目前鏡頭檢測研究的難點和熱點之一。
(3)場景分割
場景是發生在某一場地或針對某一對象(或動作)的、具有相對獨立的敘事情節的一個或多個連續鏡頭的集合。有時一個場景就是一個鏡頭,有時一個場景是從不同角度反映同一場地(或對象或動作)的多個鏡頭的組合。
目前場景分割(也可稱為場景構建)一般是在鏡頭分割的基礎上,采用鏡頭聚集的方式實現。文獻[6]提出了一種通過構造層次型“場景變換圖”的方法實現場景分割的思路,場景變換圖中的結點表示鏡頭、邊表示變換,基于場景變換圖,利用顏色的相似性計算對鏡頭進行層次聚類,形成的每一個子圖即為一個場景;文獻[7]提出了一種在鏡頭分割基礎上,利用運動信息(包括攝像機運動和對象運動)、鏡頭長度和顏色屬性進行場景檢測的方法。
(4)故事單元分割
在影視制作過程中,導演根據劇本的內容,按照敘述的邏輯并根據創作意圖,合乎邏輯地、富有表現力地、有節奏地把鏡頭連接起來,構成完整的銀幕形象,形成比鏡頭更高一級的結構——故事單元[8]。故事單元是指針對某一事件的、具有相對完整的故事情節的一個或多個連續場景(鏡頭)的集合。故事單元分割的基本思想也是在鏡頭分割的基礎上,結合領域知識對鏡頭(或場景)進行聚類分析。
故事單元的理解主要是從語義層次上進行的,其長度(大小)并沒有確切的定義和界限,需要更多地考慮視頻節目的類型、體裁等領域知識。對于不同類型的視頻節目,其故事單元的劃分有不同的形式。例如,對于電視連續劇,可以將每一集看作一個故事單元;對于體育節目,可以根據其本身所固有的時間間隔進行分割,或根據主要事件(如得分、進球等)進行分割等。
2.3視頻索引對象的數據結構
數據模型是直接面向計算機系統(數據庫)中數據的邏輯結構。在常見的數據庫系統中,根據實體集之間的不同結構,通常把數據模型分為層次模型、網狀模型、關系模型和面向對象模型四種。目前成熟的、主流的數據庫管理系統絕大多數是采用關系模型,并在此基礎上擴展了面向對象的程序設計功能。鑒于這種情況,可以考慮視頻索引對象的數據結構采用如下的關系數據模式:
節目Program(節目號pNO,索引信息p)
故事單元StoryUnit(節目號pNo,故事單元號uNO,索引信息u)
場景Scene(節目號pNo,故事單元號uNO,場景號eNO,索引信息e)
鏡頭Shot(節目號pNo,故事單元號uNO,場景號eNO,鏡頭號sNO,索引信息s)
代表幀KeyFrame(節目號pNo,故事單元號uNO,場景號eNO,鏡頭號sNO,幀號fNO,索引信息f)
在實現時,節目號由分類號和編號兩部分組成,其中分類號應采用類似于中圖分類號的編碼體系,分類方法可參考TV-Anytime論壇制定的分類策略(SP003v13[12]);故事單元號、場景號、鏡頭號和幀號可采用視頻片段的起止時間碼(SMPTE使用的時間碼格式為:<小時:分鐘:秒:幀>);各索引對象的索引信息可根據后續討論的索引模型創建。
3、視頻信息的索引模型
3.1視頻信息的內容模型
視頻包含有豐富的信息內容,針對同一段視頻,不同的人、在不同的情形之下觀看,通常有不同的感受,即使是同一個人多次觀看同一段視頻,往往也會有不同的感受。針對視頻所包含的信息內容,許多學者從不同的學科出發,對其進行了較為深入的研究。其中,較有代表性的是文獻[9]提出的視頻內容分類模型,如圖2所示。
該模型根據人類視覺感知和認識事物的規律,將視頻內容分為三個層次:第一層(低層)為用戶觀看視頻時首先感知的視覺信息,如顏色、紋理、形狀、運動等;第二層(中間層)為通過邏輯推理而得的、基于對象(Object)的感知信息,如視頻中包含(描述)的人物、地點、時間等;第三層(高層)為通過智能推理而得的、基于知識(Knowledge)的感知信息,它反映了視頻本身的語義,以及由此而來的感受,如某視頻片段為暴力鏡頭、歡慶場景、劫機事件等等。這種視頻內容建模方式為基于內容的視頻信息索引提供了有益的指導。
3.2視頻信息的描述需求與索引模型
視頻信息內涵的豐富性、用戶檢索需求的多樣性,決定了在對視頻信息進行索引時,應盡可能地從各個層次和側面進行全方位的描述。根據MPEG-7的目標要求[10],對視頻信息的描述至少應包括如下的信息:
(1)有關內容的產生和發展進程的描述信息(如導演/作者、標題、版本等);
(2)與內容使用有關的信息(如版權、使用歷程、宣傳計劃等);
(3)有關內容存儲特性的信息(如存儲格式、編碼等);
(4)有關內容的低層特性的信息(如顏色、紋理、音質、音調描述等);
(5)從內容捕捉到的實體的概念化信息(如對象和事件,對象間的交互作用等);
(6)利于瀏覽視頻內容的信息(如概要、變更、空間和頻率等);
(7)關于用戶和內容交互作用的信息(如用戶選擇、使用歷史等)。
根據MPEG-7提出的描述要求及視頻內容分類模型,可以考慮采用如圖3所示的視頻索引模型。
在該索引模型中,視頻信息的索引分為外部信息索引和基于內容的索引。
外部信息索引是指基于視頻文檔外部的、不依賴于其內容的信息索引,用于視頻文檔的標識和檢索,如標題、作者、時間、文檔大小、存儲格式與編碼格式、使用信息(軟硬件要求、使用要求、版權等)等等。
基于內容的索引又可以分為結構索引、低層特征索引、中間層對象索引和高層語義索引,后三種索引與圖2所示的視頻內容模型相對應。結構索引是指節目、場景、鏡頭、幀之間的層次結構與關系等;低層特征索引是基于視頻信息的物理特征信息(如顏色、紋理、運動、音質、音調等)進行索引;中間層的索引是對視頻中可識別對象(如時間、地點、人物等)的索引;高層語義索引用于描述視頻中包含的事件及相關的感受。
3.3視頻對象與索引類型的關系
不同(層次)的視頻對象對應著不同的索引,其對應關系如表1所示。
幀的索引包含低層特征索引、中間層對象索引和高層語義索引。其中,低層特征可以自動地提取,中間層對象可以采用人工或半自動化(基于圖像識別技術)的方式進行標引,高層語義可以采用人工輸入方式進行標引。
表1視頻對象與索引類型索引
外部信息結構索引低層特征中間層對象高層語義
對象索引索引索引索引
(代表幀)√√√
鏡頭√√
場景√√
故事單元√√
節目√√√
鏡頭的索引主要是中間層對象索引和高層語義索引。其中,鏡頭的中間層對象描述是在幀的中間層對象描述基礎上進行擴充,高層語義可以采用人工輸入與自動提取(主要是指利用語音識別與文字識別等技術直接從視頻信息中提取)相結合的方式生成。
場景和故事單元的索引主要有結構索引和高層語義索引。其結構索引用于描述鏡頭之間的關系,高層語義索引描述的是在鏡頭語義基礎上形成的敘事(故事)情節。
節目的索引包含外部信息索引、結構索引和高層語義索引。
3.4索引類型與檢索方式的關系
視頻信息的檢索主要有三種類型,即結合在線相關反饋機制的基于示例的檢索(Query-by-Example)、基于關鍵詞檢索(Query-by-Keyword)和基于導航機制的視頻瀏覽(VideoBrowsing),它們與索引類型的對應關系如表2所示。
表2檢索方式與索引類型
索引外部信息結構索引低層特征中間層對高層語義
索引索引象索引索引
檢索方式
示例的檢索√√
關鍵詞檢索√√√
視頻瀏覽√
4、存在的問題及探討
面對急劇增長的視頻信息,如何高效且合理地對其進行索引是視頻信息重用和消費的基礎。雖然近年來的研究已取得不少的進展,但仍然存在許多有待解決的問題。有些問題是屬于“技術”層面的,如視頻分割、代表幀提取、圖像理解、文字識別、語音識別等,有些問題是屬于“非技術”層面的,如視頻元數據標準、文本描述的規范性、視頻作品的規范化等。下面就一些“非技術性”問題進行探討。
4.1視頻信息的元數據標準
信息的索引描述是信息的元數據,索引項的確立依賴于元數據標準的制定。針對不同的資源類型、不同的用途、不同的機構建立了多種不同的元數據標準。隨著數字視頻技術的發展,針對數字視頻信息的元數據研究也在不斷地深入,并已出現了一些基于不同目標的元數據模式或標準,如數字電視元數據標準(DVB-SI、TV-Anytime和SMPTE等)、視頻軟硬件廠商推出的元數據標準(Apple公司的QuickTime、Microsoft公司的WindowsMedia等)以及MPEG-7等[11]。
由于視頻信息本身固有的復雜性,使得視頻信息在創建、存儲、傳輸和使用等過程中需要不同的管理信息(元數據)。筆者認為,根據視頻元數據的發展現狀,在研究和制定元數據標準時應注意三點:一是這些元數據標準應整合在統一的框架之內,在統一的視頻元數據框架基礎上形成面向不同應用的子集;二是視頻元數據標準應適應MPEG制定的“多媒體描述框架”——MPEG-7標準;三是采用通用的XML語言語法。
4.2文本索引信息的規范性
雖然基于示例的視頻檢索是最簡便的檢索手段,但用戶往往不會有現成的示例,且目前現有技術很難高效地為普通用戶提供一個初始查詢示例。目前來看,利用文本信息對視頻信息進行索引(即基于關鍵字的視頻檢索),既符合一般用戶的檢索習慣,又可借助日趨成熟的文本檢索技術。文獻[3]較為深入地探討了基于文本信息的視頻索引及其相關技術,特別是文本信息獲取的途徑。
在采用文本信息對視頻信息進行索引(包含外部信息索引、中間層對象索引和語義索引)時,無論這些文本信息是人工輸入的,還是自動提取或生成的,均需要考慮文本描述的規范性,即如何對視頻信息的某種特征和屬性(如視頻節目的類型、流派等)進行表述。對此應從兩個方面進行研究并制定相關的標準:一是對于一些可面向所有視頻文檔的通用屬性,應建立相關的分類標準和詞匯表,目前TV-Anytime論壇在這方面已做出了開創性工作,在其已制定的元數據規范(SP003v13)中已經定義了一個獨特的文檔結構來綜合節目描述、用戶描述、分類策略[12];二是對于特定類型的視頻節目(如各種體育比賽),應建立相關的對象、事件描述標準和詞匯表。
4.3視頻文檔的規范化
目前文本文檔的論文格式規范和著錄標準(例如章節、標題的格式,每一篇論文均需要給出標題、作者、摘要、關鍵詞,等等),為文本文檔的管理、索引、檢索和瀏覽等帶來了極大的便利。
對于視頻作品(文檔)來說,也應該且急需制定出相應的視頻文檔規范,這包括兩個方面:一是規定視頻作品必須有著錄標準,應能提供相應的視頻摘要(文本的、圖像的、視頻的)、關鍵詞(關鍵幀)等元數據,作者和相關的制作人員對作品的理解最深、主題把握最準,由這些人員給出的相關信息(元數據)顯然是最為有效的視頻索引信息;二是應制定視頻文檔的格式規范,也能像文本文檔一樣提供結構化的信息,包括視頻的組織、結構層次等信息。要解決視頻文檔的規范化問題,需要從兩個方面努力:一是各種規范和標準;二是開發相應的視頻“寫作”工具。
5、結語
隨著計算機處理能力、網絡帶寬和多媒體技術的發展,視頻信息越來越成為人們消費信息資源的主要形式之一。如何高效且合理地對視頻信息進行分析、組織和索引,以便于檢索和重用,需要多個學科人員的共同努力。目前的研究大多集中在對現有視頻信息進行分析與處理,以解決現有視頻信息的利用等問題上。筆者認為,未來視頻信息的增長將會越來越快,對于視頻信息組織與管理的研究,更需要重視新視頻標準的制定,即盡快制定出全新的、便于管理和使用的視頻文檔格式和制作規范,從根本上解決視頻信息的“無結構”問題,并為視頻索引和檢索提供有用的信息。
【參考文獻】
[1]宋宜純.CCTV音像資料館業務系統的技術特點.www.tech-/broadcast/journal/ibi/00316985.html(AccessedDec.10,2004)
[2]蘇新寧.視頻信息索引技術研究進展.情報學報,2004(4):410—416
[3]嚴明,秦嘉杭.基于文本信息的數字視頻檢索研究.情報科學,2004(7):865—869
[4]周洞汝等.視頻數據庫管理系統導論.北京:科學出版社,2000
[5]RainerLienhart.ReliableTransitionDetectionInVideos:ASurveyandPractitioner''''sGuide.InternationalJournalofImageandGraphics,Vol.1,No.3,2001:469—486
[6]Yeung,M.Metal.SegmentationofVideosbyClusteringandGraphAnalysis.CVIU,Vol.71,No.1,1998
[7]Rasheed,Z.Shah,M.ScenedetectioninHollywoodmoviesandTVshows.Proc.ofIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition,Madison,Wisconsin,June16—22,2003:343—348
[8]樊昀,王潤生.基于超圖聚類的故事單元的抽取與分析.軟件學報,14(4):857—863
[9]FaisalI.Bashir,AshfaqA.Khokhar.VideoContentModeling:AnOverview.multimedia.eecs.uic.edu/faisal/FIB-Publications.html(AccessedDec.10,2004)
[10]JoséM.Martínez.MPEG-7Overview./mpeg/standards/mpeg-7/mpeg-7.htm(AccessedDec.10,2004)
[11]嚴明,蘇新寧.數字視頻信息的元數據研究.情報學報,2004(5):605—610
- 上一篇:網絡知識數字參考咨詢分析論文
- 下一篇:終端測試儀混合自動重傳分析論文