User:FBI-MAN2/Sandbox
大數據(英語:Big data)[1],或稱巨量資料、海量資料。是資料量一定要達到相當規模才能做的事(例如得到新觀點、創造新價值),沒有一定規模就無法實現,而且這些事將會改變現有市場、組織、公民與政府的關係。[註 1]
不論是每個人口袋裡的手機、背著到處走的電腦、又或是辦公室所使用的的伺服器系統,都是資訊化社會明顯而豐碩的果實。自從電腦進入主流社會以來,累積的資料已經到了一定程度,開始帶來全新特殊的改變。[註 2]
現在,世界上資訊成長的速度量前所未見,規模的改變導致從量變引發了質變。譬如天文學、基因組學之類的科學部門,在21世紀開始後的10年之間爆炸性成長,因而創造出「巨量資料」這個詞;至今已經又擴展到所有人類活動領域。[註 3]
巨量資料的核心重點在於「預測」,一般將巨量資料看做是資訊工程中「人工智慧」的一支,或者更具體的說是「機器學習」的一部份,但這其實會造成誤導。巨量資料並不是要「敎」電腦如何像人類一樣「思考」,而是要計算大量的資料,以此推斷機率。[註 4]
以金融領域為例,美國股市每天大約會成交七十億股,其中有三分之二,是由電腦用數學模型分析大量資料後自動交易。數學模型有雙重目標︰一方面預測獲利、一方面也試著降低風險。[註 5]
巨量資料也會為商業、市場和社會帶來變化。例如、萬事達卡顧問公司(MasterCard Advisors),有能力匯整分析來自210個國家、15億人口的650億筆交易紀錄,他們發現之一是︰如果民眾在下午4點左右加油,接下來的一個小時內,就可能在附近雜貨店或是餐廳,花掉35美元到50美元。行銷人員如果知道這種事,就能加以設計,只要差不多那個時候的加油站收據,就在背面印上附近雜貨店或是餐廳的折價卷。[註 6]
定義
[编辑]大數據由巨型數據集組成,這些數據集大小常超出常用軟件在可接受時間下的收集、策展、管理和處理能力。[2]決定大數據大小的指標永遠在變,截至2012年[update],大數據中的數據集可以由幾十兆位元組至數拍位元組的數據組成。這指標不固定是因為傳統資料庫管理系統以至NoSQL等新型數據庫,它們的科技和處理大容量數據的能力不斷在改進。[3]在這前題下,新的平台正被開發去處理這些海量資料。美國在2012年就開始著手大數據,歐巴馬更在同年投入2億美金在大數據的開發中,更強調大數據會是之後的未來石油
在一份2001年的研究[4]與相關的演講中,當時麦塔集团(英語:META Group,現被高德纳咨询公司收購[5])的分析員道格·萊尼(Doug Laney)指出數據增長有三個方向的挑戰和機遇:量(Volume,數據大小)、速(Velocity,資料输入輸出的速度)與多變(Variety,多样性),合稱「3V」或「3Vs」。高德纳與現在大部份大數據產業中的公司,都繼續使用這3個V去描述大數據。[6]於2012年,高德納修改了對大數據的定義:「大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理。」[原文 1][7]另外,有機構在3V之外定義第4個V,真实性(Veracity)為第四特点[8]。
- ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.
看到數據之變化
[编辑]代表性人物與分析方法
[编辑]分析大數據本身,以及數據之間的交互關係,人類通常使用多媒體的方式呈現視覺效果,以下舉出代表性的人士、以及分析工具。
- 漢斯·羅斯林、國際衛生學教授、使用工具「Trendalyzer軟體」。目的是呈現兩百多年以來全球人類的人口統計資料,跟其他數據交叉比對、例如︰收入、宗教、能源使用量……等等。詳細的表達方法及說明,可以在中文維基該條目中「演講錄影」觀看。
科學界研究的分析方法
[编辑]應用範例
[编辑]- 臺灣「e化天眼計劃」系統,在2013年八里雙屍案偵辦時、調閱警方與民政系統共305具監視器影像資料時間長達1個月,將謝依涵、呂炳宏、張翠萍、陳進福等人的車輛軌跡與通聯紀錄輸入後、將零星、片段資料,分析影像、比對車號進行交叉比對。鎖定死者失蹤前、屍體被發現後,失蹤當晚究竟是赴誰的約會?警方表示,「人證會有記憶上的遺漏或誤差」,但科學辦案完全以證據說話。[9][10][11]
- 日本「N系統」(自動車ナンバー自動読取装置),可以全年無休對道路上行駛的車輛牌照拍照存檔,記錄下行駛的路線與時間。另外、東京都警視廳也配合「3D臉部自動辨識系統」辨識人貌鑑定,警察如需調查案情之時,就能夠調出資料庫數據,進行交叉比對,篩選出可疑的犯罪目標。[12][13]
- 2009年Google工程師依據搜尋引擎的查詢數據,預測H1N1在美國冬天即將爆發流感,資訊速度比起聯邦政府疾病管制局(CDC)提前。並且在《自然》期刊上發表「Detecting influenza epidemics using search engine query data(使用搜索引擎查詢數據檢測流感疫情)」的文章。[14][15]
- 依據《大數據》一書,第四章 相關性。案例「預測誰家的女兒未婚懷孕」P.83~85
首先就是零售商分析「懷孕的人會購買那些東西」、製作對照用的指標,其實就是購物清單。然後收集人們「信用卡、聯名卡」的資料計算出「懷孕預測分數」。這則故事提到有個人很生氣到零售商分店找經理出來,罵他們郵寄給讀高中的女兒嬰兒衣服&床優惠卷,難道是要鼓勵我女兒未婚懷孕嗎!!!過了幾天經理打電話給這個人道歉,但是這個男人卻反而對經理道歉,他說︰「我跟我女兒談了一下,結果發現,原來家裡頭有些事情瞞著我,她的預產期是八月份」。
工具
[编辑]進行大數據計算是需要電腦軟硬體配合,非自然人力可及,相關的工具如下︰
- Apache Hadoop是開放原始碼的分散式檔案系統,可以用於各種不同電腦之間,總和成為單一電腦系統進行平行運算。
相關條目
[编辑]
備註
[编辑]
專書
[编辑]書籍或論文 | 概述 |
---|---|
《大數據》 (英文:BIG DATA) ISBN 978-986-320-191-5 出版國:中華民國 出版年份:2013年6月 |
作者「麥爾荀伯格Viktor Mayer-Schonberger」、「庫基耶Kenneth Cukier」,正體中文版由天下文化出版。[18][19][20][21]
|
參考文獻
[编辑]- ^ 天下文化出版社對於《大數據》該書的宣傳頁面
- ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
- ^ Hogan, M. Large Databases. 3 Jan 2013 [2013-07-05]. (原始内容存档于2013-05-14).
- ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF). Gartner. [6 February 2001].
- ^ Acquisitions. Gartner. [2013-06-29].
- ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [13 July 2011]. (原始内容存档于2011-07-10).
- ^ Douglas, Laney. The Importance of 'Big Data': A Definition. Gartner. [21 June 2012].[永久失效連結]
- ^ What is Big Data?. Villanova University.
- ^ 2013-03-29 八里雙屍案 雲端分析行車軌跡(中央社)
- ^ 2013-01-25 新北市警局與中華電信聯手發表「科技防衛城e化天眼計畫」
- ^ 2013-01-25 新北市警局與中華電信啟用「e化天眼」計劃(iThome/蘇文彬)
- ^ 治安維護上監視器(CCTV)之發展與應用 - 公務出國報告資訊網(報告書全文)
- ^ 治安維護上監視器(CCTV)之發展與應用 - 公務出國報告資訊網(HTML檔)
- ^ 《自然》期刊︰Detecting influenza epidemics using search engine query data(使用搜索引擎查詢數據檢測流感疫情)
- ^ 文章全文(PDF):Detecting influenza epidemics using search engine query data(使用搜索引擎查詢數據檢測流感疫情)
- ^ 「Google 流感趨勢」提供全球每週流感疫情預測
- ^ Google 歷史沿革/2009年10月/我們的流感監測工具流感趨勢目前增加提供16個國家、37種語文的資料。
- ^ http://www.vmsweb.net/ 原作者「麥爾荀伯格Viktor Mayer-Schonberger」的網站]
- ^ 原作者「麥爾荀伯格Viktor Mayer-Schonberger」在中央電視台財經頻道的訪談,2013-04-14 央視2套>《对话》谁在引爆大数据
- ^ 原作者「庫基耶Kenneth Cukier」演講,2013-04-18 GoogleTalks>BIG DATA: A Revolution That Will Transform...
- ^ 天下文化出版社對於《大數據》該書的宣傳頁面
延伸閱讀
[编辑]- The Rise of Industrial Big Data Leveraging large time-series data sets to drive innovation, competitiveness and growth--capitalizing on the big data opportunity. GE Intelligent Platforms White Paper.
- Hilbert, Martin; López, Priscila. The World's Technological Capacity to Store, Communicate, and Compute Information. Science. 2011 pmid = 21310967, 332 (6025): 60–65.
- Resources on how Topological Data Analysis is used to analyze big data