資料科學
此條目需要擴充。 (2013年7月15日) |
上級分類 | 科學 |
---|---|
研究對象 | 資料 |
從業者 | 數據科學家、data architect |
使用 | 統計學、應用數學、電腦科學 |
Stack Exchange子網路站 | https://datascience.stackexchange.com |
機器學習與資料探勘 |
---|
資料科學(英語:data science)又稱數據科學,是一門利用資料(數據)學習知識的學科,其目標是透過從資料中提取出有價值的部分來生產資料產品[1],學科範圍涵蓋了:資料取得、資料處理、資料分析等過程,舉凡與數據有關的科學均屬資料科學。
資料科學結合了諸多領域中的理論和技術,包括應用數學、統計、圖型識別、機器學習、資料視覺化、資料倉儲以及高效能計算。資料科學透過運用各種相關的資料來幫助非專業人士理解問題。 資料科學技術可以幫助我們如何正確的處理資料並協助我們在生物學、社會科學、人類學等領域進行研究調研。此外,資料科學也對商業競爭有極大的幫助[2]。
美國國家標準技術研究所於2015年發表七卷巨量資料參考框架(NIST Big Data Reference Architecture,NBDRA),於第一卷定義篇中將數據科學定為在理論科學、實驗科學和計算科學之後的第四科學科學[3][4]。
資料科學家是把統計學知識和電腦程式設計知識相結合,並將其用於深度分析資料來獲得資料見解的職業[5]。
歷史
1960年代,彼得·諾爾就首次提議要用「數據科學(data science、Datalogy)」來替代「電腦科學(computer science)」,後來在上世紀九十年代中期為國際分類社團聯盟所用。
1997年11月,吳建福 發表了題為「統計=資料科學?」的就任演講,[6] 因為他被任命為密西根大學的 H. C.卡弗教授。[7] 在這次演講中,他將統計工作描述為資料收集、資料建模和分析以及決策制定的三部曲。 在他的結論中,他開創了「資料科學」(而非「電腦科學」)這個術語的現代用法,並提倡將統計學重新命名為資料科學,而統計學家則應重新命名為資料科學家。[6] 後來,他發表了題為「統計=資料科學?」的演講,作為他1998年的首個 P. C. 馬哈拉諾比斯紀念演講。[8] 這些講座是為了紀念印度科學家、統計學家和印度統計學院 創始人P. C. 馬哈拉諾比斯 。
2001年,William S. Cleveland 提議將其設立為一個新的學科,吸收「計算在數據方面取得的進展」作為統計學的延伸。《Data Science Journal》及《The Journal of Data Science》分別於2002年與2003年發行;2005年9月,美國國家科學基金會發表了《長存的數位資料收集:使21世紀的研究與教育成為可能》,文中將數據科學家定義為「資訊與電腦科學家,資料庫與軟體工程師與程式設計師,跨學科專家,保管員以及專業注釋者,圖書館員,檔案館員和其他人員,這些人對數位資料收集的成功管理至關重要。」[9] 2008年 Jeff Hamerbatcher 與 DJ Patil circa 分別在 Facebook、LinkedIn 領導全球第一支數據科學團隊,至此數據科學越來越被廣泛流行,並應用到公共衛生、市場、金融、社會等各個領域。
資料科學家
數據科學家這個職位的頭銜則是1997年吳建福的報告 "Statistics = Data Science?"中首次提及[來源請求]的,他認為數據科學家就是能夠從大型資料集中析取出數據,並進行統計推斷的統計學家。
2009 年 1 月,數位化數據跨機構工作組發表了一份名為《駕馭科學與社會數位化數據之力》的報告,Sadkowsky 從中了解到「數據科學家」這個詞,認為該詞是自己所從事工作的最好描述。
2012年,資料科學家被《哈佛商業評論》稱為《二十一世紀最性感的職業》[10]後,數據科學逐漸成為一個時髦術語(Buzzword)。
2017年,由資料科學活動而衍生的資料經濟,也開始被關注。與資訊經濟不同的是,資訊經濟是由編譯過的資料而產生經濟價值,而資料經濟的資料價值則源自於資料本身,它可以不斷的被編譯而產生多樣化的價值。
資料科學家在美歐的需求巨大,麥肯錫公司宣布全世界上此職業人才短缺超過二十萬工人[11]。
參考文獻
- ^ Dhar, Vasant. Data Science and Prediction. [2014-07-14]. (原始內容存檔於2014-11-09).
- ^ AOL staff. Data Scientist: The Hottest Job You Haven't Heard Of. [2014-07-14]. (原始內容存檔於2014-07-17).
- ^ 存档副本 (PDF). [2022-06-07]. (原始內容存檔 (PDF)於2022-06-09).
- ^ 巨量資料, 2017, 3(4): 11-19 doi: 10.11959/j.issn.2096-0271.2017037
- ^ Davenport, Thomas H.; Patil, D. J. Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. 2012-10-01 [2017-06-17]. ISSN 0017-8012. (原始內容存檔於2017-06-14).
- ^ 6.0 6.1 Wu, C. F. J. (1997). Statistics = Data Science? (PDF). [9 October 2014]. (原始內容存檔 (PDF)於2014-10-14).
- ^ Identity of statistics in science examined. The University Records, 9 November 1997, The University of Michigan. [12 August 2013]. (原始內容存檔於2013-10-29).
- ^ P.C. Mahalanobis Memorial Lectures, 7th series. P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. [18 Jul 2017]. (原始內容存檔於29 October 2013).
- ^ Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century. (PDF). National Science Board, September 2005, National Science Foundation. [19 January 2020]. (原始內容存檔 (PDF)於2017-05-05).
- ^ Data Scientist: The Sexiest Job of the 21st Century. [2017-06-17]. (原始內容存檔於2017-06-14).
- ^ Big data: The next frontier for innovation, competition, and productivity. [2017-06-17]. (原始內容存檔於2017-06-19).