巨量資料
巨量資料[1](英語:big data[2][3][4];亦稱作大數據),指的是傳統資料處理應用軟體不足以處理的大或複雜的資料集的形容術語[5][6]。
巨量資料也可以定義為來自各種來源的大量非結構化或結構化資料。從學術角度而言,巨量資料的出現促成廣泛主題的新穎研究。這也導致各種巨量資料統計方法的發展。巨量資料並沒有統計學的抽樣方法;它只是觀察和追蹤發生的事情。因此,巨量資料通常包含的資料大小超出傳統軟體在可接受的時間內處理的能力。由於近期的技術進步,發布新資料的便捷性以及全球大多數政府對高透明度的要求,巨量資料分析在現代研究中越來越突出。[7] [3]
概述
截至2012年[update],技術上可在合理時間內分析處理的資料集大小單位為艾位元組(EB)[8]。在許多領域,由於資料集過度龐大,科學家經常在分析處理上遭遇限制和阻礙;這些領域包括氣象學、基因組學[9]、神經網路體學、複雜的物理類比[10],以及生物和環境研究[11]。這樣的限制也對網路搜尋、金融與經濟資訊學造成影響。資料集大小增長的部分原因來自於資訊持續從各種來源被廣泛蒐集,這些來源包括搭載感測裝置的行動裝置、高空感測科技(遙感)、軟體記錄、相機、麥克風、無線射頻辨識(RFID)和無線感測網路。自1980年代起,現代科技可儲存資料的容量每40個月即增加一倍[12];截至2012年[update],全世界每天產生2.5艾位元組(2.5×1018位元組)的資料[13]。
巨量資料幾乎無法使用大多數的資料庫管理系統處理,而必須使用「在數十、數百甚至數千台伺服器上同時平行執行的軟體」(電腦叢集是其中一種常用方式)[14]。巨量資料的定義取決於持有資料組的機構之能力,以及其平常用來處理分析資料的軟體之能力。「對某些組織來說,第一次面對數百GB的資料集可能讓他們需要重新思考資料管理的選項。對於其他組織來說,資料集可能需要達到數十或數百TB才會對他們造成困擾。」[15]
隨著巨量資料被越來越多的提及,有些人驚呼巨量資料時代已經到來了,2012年《紐約時報》的一篇專欄中寫到,「巨量資料」時代已經降臨,在商業、經濟及其他領域中,決策將日益基於資料和分析而作出,而並非基於經驗和直覺。但是並不是所有人都對巨量資料感興趣,有些人甚至認為這是商學院或諮詢公司用來譁眾取寵的時髦術語(buzzword),看起來很新穎,但只是把傳統重新包裝,之前在學術研究或者政策決策中也有海量資料的支撐,巨量資料並不是一件新興事物。
巨量資料時代的來臨帶來無數的機遇,但是與此同時個人或機構的隱私權也極有可能受到衝擊,巨量資料包含各種個人資訊資料,現有的隱私保護法律或政策無力解決這些新出現的問題。有人提出,巨量資料時代,個人是否擁有「被遺忘權」,被遺忘權即是否有權利要求資料商不保留自己的某些訊息,巨量資料時代訊息為某些網際網路巨頭所控制,但是資料商蒐集任何資料未必都獲得使用者的許可,其對資料的控制權不具有合法性。2014年5月13日歐盟法院就「被遺忘權」(Case of Right to be Forgotten)一案作出裁定,判決Google應根據使用者請求刪除不完整的、無關緊要的、不相關的資料以保證資料不出現在搜尋結果中。這說明在巨量資料時代,加強對使用者個人權利的尊重才是時勢所趨的潮流。
定義
巨量資料由巨型資料集組成,這些資料集大小常超出人類在可接受時間下的蒐集、策展、管理和處理能力[16]。巨量資料的大小經常改變,截至2012年[update],單一資料集的大小從數太位元組(TB)至數十兆億位元組(PB)不等。
在一份2001年的研究與相關的演講中[17],麥塔集團(META Group,現為高德納)分析員道格·萊尼(Doug Laney)指出資料長的挑戰和機遇有三個方向:量(Volume,資料大小)、速(Velocity,資料輸入輸出的速度)與多變(Variety,多樣性),合稱「3V」或「3Vs」。高德納與現在大部份巨量資料產業中的公司,都繼續使用3V來描述巨量資料[18]。高德納於2012年修改對巨量資料的定義:「巨量資料是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理[原文 1][19]。」另外,有機構在3V之外定義第4個V:真實性(Veracity)為第四特點,即資料的真實性存疑或不能全然確定。[20]。
巨量資料必須藉由電腦對資料進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手巨量資料,歐巴馬更在同年投入2億美金在巨量資料的開發中,更強調巨量資料會是之後的未來石油。
資料探勘(data mining)則是在探討用以解析巨量資料的方法。
巨量資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於特殊巨量資料的技術,包括大規模並列處理(MPP)資料庫、資料探勘、分散式檔案系統、分散式資料庫、雲端運算平台、網際網路和可延伸的儲存系統。
資料來源類型
巨量資料取得之來源影響其應用之效益與品質,依照取得的直接程度一般可分為三種[21][22]:
- 第一方資料(First Party Data):為己方單位自己和消費者、使用者、目標客群互動產生的資料,具有高品質、高價值的特性,但易局限於既有顧客資料,如企業蒐集的顧客交易資料、追蹤使用者在APP上的瀏覽行為等,擁有者可彈性地使用於分析研究、行銷推廣等[23]。
- 第二方資料(Second Party Data):取自第一方的資料,通常與第一方具有合作、聯盟或契約關係,因此可共享或採購第一方資料。如:訂房品牌與飛機品牌共享資料,當客人購買某一方的商品後,另一單位即可推薦他相關的旅遊產品;或是已知某單位具有己方想要的資料,透過議定採購,直接從第一方取得資料[24]。
- 第三方資料(Third Party Data):提供資料的來源單位,並非產出該資料的原始者,該資料即為第三方資料。通常提供第三方資料的單位為資料供應商,其廣泛蒐集各式資料,並販售給資料需求者,其資料可來自第一方、第二方與其他第三方資料,如爬取網路公開資料、市調公司所發布的研究調查、經去識別化的交易資訊等[25]。
應用範例
巨量資料的應用範例包括大科學、RFID、感測裝置網路、天文學、大氣學、交通運輸、基因組學、生物學、大社會資料分析[26]、網際網路檔案處理、製作網際網路搜尋引擎索引、通訊記錄明細、軍事偵查、金融巨量資料,醫療巨量資料,社群網路、通勤時間預測、醫療記錄、相片圖像和影像封存、大規模的電子商務等[27]。
巨大科學
大型強子對撞機中有1億5000萬個感測器,每秒傳送4000萬次的資料。實驗中每秒產生將近6億次的對撞,在過濾去除99.999%的撞擊資料後,得到約100次的有用撞擊資料[28][29][30]。
將撞擊結果資料過濾處理後僅記錄0.001%的有用資料,全部四個對撞機的資料量複製前每年產生25拍位元組(PB),複製後為200拍位元組。
如果將所有實驗中的資料在不過濾的情況下全部記錄,資料量將會變得過度龐大且極難處理。每年資料量在複製前將會達到1.5億拍位元組,等於每天有近500艾位元組(EB)的資料量。這個數字代表每天實驗將產生相當於500垓(5×1020)位元組的資料,是全世界所有資料來源總和的200倍。
科學研究
衛生學
國際衛生學教授漢斯·羅斯林使用「Trendalyzer」工具軟體呈現兩百多年以來全球人類的人口統計資料,跟其他資料交叉比對,例如收入、宗教、能源使用量等。
公共部門
目前,已開發國家的政府部門開始推廣巨量資料的應用。2012年歐巴馬政府投資近兩億美元開始推行《巨量資料的研究與發展計劃》,本計劃涉及美國國防部、美國衛生與公共服務部門等多個聯邦部門和機構,意在通過提高從大型複雜的的資料中提取知識的能力,進而加快科學和工程的開發,保障國家安全。
訊息審查
中華人民共和國政府計劃建立全面的個人信用評分體系,其包含不少對個人行為的評定,有關指標會影響到個人貸款、工作、簽證等生活活動。高科技公司在被政治介入為其目的服務,個人的大部分行為和社交關聯受掌控,幾乎無人可免於被納入個人信用評價體系的監控中[31]。除獲取網路資料外,中華人民共和國政府還希望從科技公司獲得分類和分析訊息的雲端運算能力,透過城市監控攝錄影機、智慧型手機、政府資料庫等蒐集資料,以建造智慧城市和安全城市。人權觀察駐香港研究員王松蓮指出,整個安全城市構想無非是一個龐大的監視項目[32]。
而美國的大規模監控最早則可追溯到1919年的黑箱計劃,自2001年911恐怖襲擊後監控被升級。2013年愛德華·史諾登向《衛報》曝光了美國四項大規模監控計劃之一的稜鏡計劃,「他們(國家安全局)能夠利用監控系統讓時間倒流、明察秋毫,他們可以查出每一個你曾做過的決定,每一個和你說過話的朋友,在此基礎之上製造出對你的懷疑,從而攻擊你,將你描繪成一個罪犯,無論你的人生多麼清白。」[33]
民間部門
- 亞馬遜公司,在2005年的時點,這間公司是世界上最大的以LINUX為基礎的三巨量資料庫之一[34]。
- 沃爾瑪可以在1小時內處理百萬以上顧客的消費處理。相當於美國國會圖書館所藏的書籍之167倍的情報量[35]。
- Facebook,處理500億枚的使用者相片[36]。
- 全世界商業資料的數量,統計全部的企業全體、推計每1.2年會倍增[37]。
- 西雅圖文德米爾不動產分析約1億匿名GPS訊號,提供購入新房子的客戶從該地點使用交通工具(汽車、腳踏車等)至公司等地的通勤時間估計值[38]。
- 軟銀,每個月約處理10億件(2014年3月現在)的手機LOG情報,並用其改善手機訊號的訊號強度[39]。
- 大企業對巨量資料技能需求量大,吸引了許多大學諸如伯克利大學開專門提供受過巨量資料訓練的畢業者的大學部門。矽谷紐約為主《The Data Incubator》公司,2012年成立,焦點是資料科學與巨量資料企業培訓,提供國際巨量資料培訓服務。
社會學
巨量資料產生的背景離不開Facebook等社群網路的興起,人們每天通過這種公民媒體傳播訊息或者溝通交流,由此產生的訊息被網路記錄下來,社會學家可以在這些資料的基礎上分析人類的行為模式、交往方式等。美國的涂爾幹計劃就是依據個人在社群網路上的資料分析其自殺傾向,該計劃從美軍退役士兵中揀選受試者,透過Facebook的行動app蒐集資料,並將使用者的活動資料傳送到一個醫療資料庫。蒐集完成的資料會接受人工智慧系統分析,接著利用預測程式來即時監視受測者是否出現一般認為具傷害性的行為。
商業
運用資料探勘技術,分析網路聲量,以了解客戶行為、市場需求,做行銷策略參考與商業決策支援,或是應用於品牌管理,經營網路口碑、掌握負面事件等。如電信業者透過品牌的網路討論資料,即時找出負面事件進行處理,減低負面討論在網路擴散後所可能引發的形象危害。[40]
市場
巨量資料的出現提升了對資訊管理專家的需求,Software AG、Oracle、IBM、微軟、SAP、易安信、惠普和戴爾已在多間資料管理分析專門公司上花費超過150億美元。在2010年,資料管理分析產業市值超過1,000億美元,並以每年將近10%的速度成長,是整個軟體產業成長速度的兩倍[35],這個成長速度亦在膨漲中。
經濟的開發成長促進了密集資料科技的使用,也促成發展了相對於資訊經濟的資料經濟。全世界共有約46億的行動電話使用者,並有10至20億人連結網際網路[35]。自1990年起至2005年間,全世界有超過10億人進入中產階級,收入的增加造成了識字率的提升,更進而帶動資訊量的成長。全世界透過電信網路交換資訊的容量在1986年為281兆億位元組(PB),1993年為471兆億位元組,2000年時增長為2.2艾位元組(EB),在2007年則為65艾位元組[12]。根據預測,在2013年網際網路每年的資訊流量將會達到667艾位元組[35]。
相關條目
注釋
- ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.
參考文獻
- ^ 1.0 1.1 1.2 巨量資料與資料探勘|國立陽明交通大學.
- ^ White, Tom. Hadoop: The Definitive Guide. O'Reilly Media. 2012-05-10: 3 [2015-12-08]. ISBN 978-1-4493-3877-0. (原始內容存檔於2015-05-12).
- ^ 3.0 3.1 MIKE2.0, Big Data Definition. [2015-12-07]. (原始內容存檔於2018-09-25).
- ^ 大数据與進階分析解決方案. [2017-03-21]. (原始內容存檔於2017-03-22).
- ^ Kusnetzky, Dan. What is "Big Data?". ZDNet. [2015-12-07]. (原始內容存檔於2010-02-21).
- ^ Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 2010-04-22 [2015-12-07]. (原始內容存檔於2015-09-08).
- ^ Li, Rita Yi Man. Have Housing Prices Gone with the Smelly Wind? Big Data Analysis on Landfill in Hong Kong, Sustainability 2018, 10(2), 341; doi:10.3390/su10020341. MDPI. [2018-03-18]. (原始內容存檔於2018-03-13).
- ^ Francis, Matthew. Future telescope array drives development of exabyte processing. 2012-04-02 [2012-10-24]. (原始內容存檔於2012-10-10).
- ^ Community cleverness required. Nature. 4 September 2008, 455 (7209): 1 [2015-12-07]. doi:10.1038/455001a. (原始內容存檔於2017-07-09).
- ^ Sandia sees data management challenges spiral. HPC Projects. 2009-08-04 [2015-12-07]. (原始內容存檔於2011-05-11).
- ^ Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. Challenges and Opportunities of Open Data in Ecology. Science. 2011, 331 (6018): 703–5. doi:10.1126/science.1197962.
- ^ 12.0 12.1 Hilbert & López 2011
- ^ IBM What is big data? — Bringing big data to the enterprise. www.ibm.com. [2013-08-26]. (原始內容存檔於2013-08-24).
- ^ Jacobs, A. The Pathologies of Big Data. ACMQueue. 6 July 2009 [2015-12-07]. (原始內容存檔於2015-12-08).
- ^ Magoulas, Roger; Lorica, Ben. Introduction to Big Data. Release 2.0 (Sebastopol CA: O'Reilly Media). 2009-02, (11) [2015-12-07]. (原始內容存檔於2010-06-04).
- ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html (頁面存檔備份,存於網際網路檔案館)
- ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF). Gartner. [2001-02-06]. (原始內容存檔 (PDF)於2013-07-23).
- ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [2011-07-13]. (原始內容存檔於2011-07-10).
- ^ Douglas, Laney. The Importance of 'Big Data': A Definition. Gartner. [21 June 2012]. (原始內容存檔於2020-04-07).
- ^ What is Big Data?. Villanova University. [2015-12-08]. (原始內容存檔於2014-02-20).
- ^ 1st Party Data, 2nd Party Data, 3rd Party Data: What Does It All Mean? (頁面存檔備份,存於網際網路檔案館),LOTAME,2019/8/19
- ^ 1st, 2nd and 3rd Party Data – What It All Means? (頁面存檔備份,存於網際網路檔案館),adsquare,Paulina,2017/3/7。
- ^ 第一方資料(First-Party Data):企業所需最接近真相的資料分析,謝佳穎 (頁面存檔備份,存於網際網路檔案館),2016/5/19。
- ^ 探討廣告資料平台DMP價值 (頁面存檔備份,存於網際網路檔案館),遠見,2014/09/15。
- ^ 第三方資料在零售業的創新應用 (頁面存檔備份,存於網際網路檔案館),OpView社群口碑資料庫,2017/7/25。
- ^ Erik Cambria; Dheeraj Rajagopal, Daniel Olsher, and Dipankar Das. 13. Big social data analysis [Big Data Computing]. Taylor & Francis. 2013 [2015-12-08]. (原始內容存檔於2016-03-03).
- ^ Hogan, M. What is Big Data. 2013-06-20 [2018-02-18]. (原始內容存檔於2017-07-22).
- ^ LHC Brochure, English version. A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which started up in 2008. Its role, characteristics, technologies, etc. are explained for the general public.. CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. [20 January 2013]. (原始內容存檔於2019-03-19).
- ^ LHC Guide, English version. A collection of facts and figures about the Large Hadron Collider (LHC) in the form of questions and answers.. CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. [20 January 2013]. (原始內容存檔於2020-04-07).
- ^ Brumfiel, Geoff. High-energy physics: Down the petabyte highway. Nature 469. 19 January 2011: 282–83 [2015-12-08]. doi:10.1038/469282a. (原始內容存檔於2017-07-30).
- ^ 陳迎竹. 慎防大数据助长独裁. 2017-10-15. (原始內容存檔於2017-10-17).
- ^ 華爾街日報:阿里、騰訊成為政府監視國民的耳目. 立場新聞. 2017-12-01. (原始內容存檔於2017-12-01).
- ^ NSA whistleblower Edward Snowden: 'I don't want to live in a society that does these sort of things' – video. The Guardian. [17 September 2013]. (原始內容存檔於2021-04-29).
- ^ Layton, Julia. Amazon Technology. Money.howstuffworks.com. [2013-03-05]. (原始內容存檔於2013-02-28).
- ^ 35.0 35.1 35.2 35.3 Data, data everywhere. The Economist. 2010-02-25 [2012-12-09]. (原始內容存檔於2018-05-27).
- ^ Scaling Facebook to 500 Million Users and Beyond. Facebook.com. [2013-07-21]. (原始內容存檔於2013-07-05).
- ^ eBay Study: How to Build Trust and Improve the Shopping Experience. Knowwpcarey.com. 2012-05-08 [2013-03-05]. (原始內容存檔於2012-06-19).
- ^ Wingfield, Nick. Predicting Commutes More Accurately for Would-Be Home Buyers - NYTimes.com. Bits.blogs.nytimes.com. 2013-03-12 [2013-07-21]. (原始內容存檔於2013-05-29).
- ^ 柴山和久. ビッグデータを利益に変える方法. 幻冬舎. 2014. ISBN 978-4344952393 (日語).
- ^ 楊立偉教授. 巨量資料的分析與應用. 2014. (原始內容存檔於2019-12-11).
延伸閱讀
- Big Data for Good (PDF). ODBMS.org. 2012-06-05 [2013-11-12]. (原始內容存檔 (PDF)於2013-10-08).
- Hilbert, Martin; López, Priscila. The World's Technological Capacity to Store, Communicate, and Compute Information. Science. 2011, 332 (6025): 60–65 [2015-12-07]. PMID 21310967. doi:10.1126/science.1200970. (原始內容存檔於2015-12-24).
- The Rise of Industrial Big Data. GE Intelligent Platforms. [2013-11-12]. (原始內容存檔於2013-11-12).
- ISBN 978-986-320-191-5 《巨量資料》
- ISBN 978-986-241-673-0 《雲端時代的殺手級應用:Big Data巨量資料分析》
- IEEE Big Data Service. ODBMS.org. 2014-09-07 [2014-09-07]. (原始內容存檔於2014-10-20).
- 什麼是巨量資料分析?|Microsoft Azure. [2024-06-11]. (原始內容存檔於2024-06-11).
外部連結
- 巨量資料的相關報導文章 (《Wired》中文網站)
- 處理巨量資料的挑戰(頁面存檔備份,存於網際網路檔案館)(美國麻省理工學院線上課程)