壓縮式感應 處理巨量「大數據」

莊開仁

 

數據不斷急速增長,特別是採自互聯網及各種傳感器的數據,由此產生了「大數據」,亦即數據集的組合體,其內容巨大而又複雜,無法用傳統的數據庫管理系統去處理。 

不過,「如果沒有工具去使用數據,數據就毫無意義,」哈佛大學的孔祥重教授12月6日在香港城市大學(城大)發表演講,一開始就這麼說。孔教授是哈佛大學的威廉˙H蓋茨電腦科學及電機工程學講座教授。
 
這場演講題為「大數據與壓縮式感應」,是城大「大學傑出講座系列」最近一場演講。孔教授回顧了「大數據」的背景及其應用,描述了一些通常用來分析大數據的技術,但演講的重點是如何運用「壓縮式感應」這種新工具來應對數據量龐大的問題。
 
孔教授說,近年來,數據採集的速度一直在加快,因為互聯網一直承載大量的流通信息,例如網誌、電郵、文字短訊、推文、電子商務交易資料等等,而各類傳感器或儀表、照相機、麥克風、移動通訊設備等輸入工具,也不停生成大量信號和圖像。
 
孔教授指出,由此形成的大數據具有「三個V」的特色:Volume(容量極大)、Variety(種類繁雜,包含結構化、非結構化、半結構化的數據)、Velocity(變化迅速)。要應付這樣的大數據,顯然要有不同於傳統的數據管理方法,而「雲端運算」就是一種新技術,在數據分析方面已發揮巨大作用。
 
但是,運算能力強大,能否跟得上快速增長的需?孔教授指出,人類對數據分析的需求永無窮盡,例如用於預測社會趨勢及消費者行為的分析,以及用於其他用途的分析。他還說,建基於數據分析的決策,需要有精密的數學工具與嚴謹的推理
 
孔教授強調指出,歸根結底,我們必須將數據大量而快速地壓縮,同時保留其中的關鍵信息,並認為這是當今信息處理的一個基本要求。他隨即又指出,幸好我們通常可以把待分析的數據樣本分為「常規」與「創新」兩類,然後運用已知的、學得的、特製的模型去處理「常規」數據,而運用「壓縮式感應」去分析「創新」類數據。
 
孔教授總論道,有了這樣的壓縮式取樣分析,我們就能夠在壓縮後的數據範圍內,把「大數據」的分析轉化為小量數據的分析,從而使巨量數據集的處理、傳輸、存儲變得大為簡易。他還說,如此一來,即使是移動電話等價格低廉的用戶設備,也能直接參與大數據的分析。
 
城大校長郭位教授為聽眾介紹孔教授時,讚揚他在電腦科學領域的傑出成就,並表示這場演講定能令城大師生受益。
 
孔教授曾在卡內基—梅隆大學任教19年,然後在1992年加入哈佛大學。他以學術研究與多方實踐相促進,一直與業界保持緊密聯繫,並為多家公司及政府機構擔任顧問。孔教授是美國國家工程院院士、台灣中央研究院院士,曾獲古根海姆獎。
​  

你可能感興趣

聯絡資料

傳訊及數據研究處

Back to top