跳转到内容

用户:FBI-MAN2/Sandbox

维基百科,自由的百科全书
美国国防高等研究计划署Big Data计画的识别图
纽约证券交易所,
百货公司与促销标语

大数据(英语:Big data[1],或称巨量资料海量资料。是资料量一定要达到相当规模才能做的事(例如得到新观点、创造新价值),没有一定规模就无法实现,而且这些事将会改变现有市场、组织、公民与政府的关系。[注 1]

不论是每个人口袋里的手机、背著到处走的电脑、又或是办公室所使用的的伺服器系统,都是资讯化社会明显而丰硕的果实。自从电脑进入主流社会以来,累积的资料已经到了一定程度,开始带来全新特殊的改变。[注 2]

现在,世界上资讯成长的速度量前所未见,规模的改变导致从量变引发了质变。譬如天文学、基因组学之类的科学部门,在21世纪开始后的10年之间爆炸性成长,因而创造出“巨量资料”这个词;至今已经又扩展到所有人类活动领域。[注 3]

巨量资料的核心重点在于“预测”,一般将巨量资料看做是资讯工程中“人工智慧”的一支,或者更具体的说是“机器学习”的一部份,但这其实会造成误导。巨量资料并不是要“敎”电脑如何像人类一样“思考”,而是要计算大量的资料,以此推断机率。[注 4]

以金融领域为例,美国股市每天大约会成交七十亿股,其中有三分之二,是由电脑用数学模型分析大量资料后自动交易。数学模型有双重目标︰一方面预测获利、一方面也试著降低风险。[注 5]

巨量资料也会为商业、市场和社会带来变化。例如、万事达卡顾问公司(MasterCard Advisors),有能力汇整分析来自210个国家、15亿人口的650亿笔交易纪录,他们发现之一是︰如果民众在下午4点左右加油,接下来的一个小时内,就可能在附近杂货店或是餐厅,花掉35美元到50美元。行销人员如果知道这种事,就能加以设计,只要差不多那个时候的加油站收据,就在背面印上附近杂货店或是餐厅的折价卷。[注 6]


定义

[编辑]

大数据由巨型数据集英语Data set组成,这些数据集大小常超出常用软件在可接受时间下的收集英语data acquisition策展英语data curation、管理和处理能力。[2]决定大数据大小的指标永远在变,截至2012年 (2012-Missing required parameter 1=month!),大数据中的数据集可以由几十兆位元组至数拍位元组的数据组成。这指标不固定是因为传统资料库管理系统以至NoSQL等新型数据库,它们的科技和处理大容量数据的能力不断在改进。[3]在这前题下,新的平台正被开发去处理这些海量资料。美国在2012年就开始著手大数据,欧巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油

在一份2001年的研究[4]与相关的演讲中,当时麦塔集团(英语:META Group,现被高德纳咨询公司收购[5])的分析员道格·莱尼(Doug Laney)指出数据增长有三个方向的挑战和机遇:量(Volume,数据大小)、速(Velocity,资料输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部份大数据产业中的公司,都继续使用这3个V去描述大数据。[6]于2012年,高德纳修改了对大数据的定义:“大数据是大量、高速、及/或多变的资讯资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最佳化处理。”[原文 1][7]另外,有机构在3V之外定义第4个V,真实性(Veracity)为第四特点[8]

  1. ^ 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.


看到数据之变化

[编辑]
IBM的视觉化程式Pearle,对维基百科使用者编辑之纪录,其数据进行视觉化的呈现。

代表性人物与分析方法

[编辑]

分析大数据本身,以及数据之间的交互关系,人类通常使用多媒体的方式呈现视觉效果,以下举出代表性的人士、以及分析工具。

  • 汉斯·罗斯林、国际卫生学教授、使用工具“Trendalyzer软体”。目的是呈现两百多年以来全球人类的人口统计资料,跟其他数据交叉比对、例如︰收入、宗教、能源使用量……等等。详细的表达方法及说明,可以在中文维基该条目中“演讲录影”观看。

科学界研究的分析方法

[编辑]

应用范例

[编辑]
  • 台湾“e化天眼计划”系统,在2013年八里双尸案侦办时、调阅警方与民政系统共305具监视器影像资料时间长达1个月,将谢依涵、吕炳宏、张翠萍、陈进福等人的车辆轨迹与通联纪录输入后、将零星、片段资料,分析影像、比对车号进行交叉比对。锁定死者失踪前、尸体被发现后,失踪当晚究竟是赴谁的约会?警方表示,“人证会有记忆上的遗漏或误差”,但科学办案完全以证据说话。[9][10][11]


  • 日本“N系统”(自动车ナンバー自动読取装置),可以全年无休对道路上行驶的车辆牌照拍照存档,记录下行驶的路线与时间。另外、东京都警视厅也配合“3D脸部自动辨识系统”辨识人貌鉴定,警察如需调查案情之时,就能够调出资料库数据,进行交叉比对,筛选出可疑的犯罪目标。[12][13]


  • 2009年Google工程师依据搜寻引擎的查询数据,预测H1N1在美国冬天即将爆发流感,资讯速度比起联邦政府疾病管制局(CDC)提前。并且在《自然》期刊上发表“Detecting influenza epidemics using search engine query data(使用搜索引擎查询数据检测流感疫情)”的文章。[14][15]
    • 2009年10月起提供查询服务,网站︰“Google 流感趋势”提供全球每周流感疫情预测[16][17]


  • 依据《大数据》一书,第四章 相关性。案例“预测谁家的女儿未婚怀孕”P.83~85

首先就是零售商分析“怀孕的人会购买那些东西”、制作对照用的指标,其实就是购物清单。然后收集人们“信用卡、联名卡”的资料计算出“怀孕预测分数”。这则故事提到有个人很生气到零售商分店找经理出来,骂他们邮寄给读高中的女儿婴儿衣服&床优惠卷,难道是要鼓励我女儿未婚怀孕吗!!!过了几天经理打电话给这个人道歉,但是这个男人却反而对经理道歉,他说︰“我跟我女儿谈了一下,结果发现,原来家里头有些事情瞒著我,她的预产期是八月份”。

工具

[编辑]

进行大数据计算是需要电脑软硬体配合,非自然人力可及,相关的工具如下︰

相关条目

[编辑]


备注

[编辑]
  1. ^ 《大数据》P.14/正体中文版/
  2. ^ 《大数据》P.13/正体中文版/
  3. ^ 《大数据》P.13~14/正体中文版/
  4. ^ 《大数据》P.21/正体中文版/
  5. ^ 《大数据》P.16/正体中文版/
  6. ^ 《大数据》P.26 P.179/正体中文版/


专书

[编辑]
书籍或论文 概述
《大数据》
(英文:BIG DATA)
ISBN 978-986-320-191-5
出版国:中华民国
出版年份:2013年6月
作者“麦尔荀伯格Viktor Mayer-Schonberger”、“库基耶Kenneth Cukier”,正体中文版由天下文化出版。[18][19][20][21]



参考文献

[编辑]
  1. ^ 天下文化出版社对于《大数据》该书的宣传页面
  2. ^ Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html
  3. ^ Hogan, M. Large Databases. 3 Jan 2013 [2013-07-05]. (原始内容存档于2013-05-14). 
  4. ^ Douglas, Laney. 3D Data Management: Controlling Data Volume, Velocity and Variety (PDF). Gartner. [6 February 2001]. 
  5. ^ Acquisitions. Gartner. [2013-06-29]. 
  6. ^ Beyer, Mark. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data. Gartner. [13 July 2011]. (原始内容存档于2011-07-10). 
  7. ^ Douglas, Laney. The Importance of 'Big Data': A Definition. Gartner. [21 June 2012]. [永久失效链接]
  8. ^ What is Big Data?. Villanova University. 
  9. ^ 2013-03-29 八里双尸案 云端分析行车轨迹(中央社)
  10. ^ 2013-01-25 新北市警局与中华电信联手发表“科技防卫城e化天眼计画”
  11. ^ 2013-01-25 新北市警局与中华电信启用“e化天眼”计划(iThome/苏文彬)
  12. ^ 治安维护上监视器(CCTV)之发展与应用 - 公务出国报告资讯网(报告书全文)
  13. ^ 治安维护上监视器(CCTV)之发展与应用 - 公务出国报告资讯网(HTML档)
  14. ^ 《自然》期刊︰Detecting influenza epidemics using search engine query data(使用搜索引擎查询数据检测流感疫情)
  15. ^ 文章全文(PDF):Detecting influenza epidemics using search engine query data(使用搜索引擎查询数据检测流感疫情)
  16. ^ “Google 流感趋势”提供全球每周流感疫情预测
  17. ^ Google 历史沿革/2009年10月/我们的流感监测工具流感趋势目前增加提供16个国家、37种语文的资料。
  18. ^ http://www.vmsweb.net/ 原作者“麦尔荀伯格Viktor Mayer-Schonberger”的网站]
  19. ^ 原作者“麦尔荀伯格Viktor Mayer-Schonberger”在中央电视台财经频道的访谈,2013-04-14 央视2套>《对话》谁在引爆大数据
  20. ^ 原作者“库基耶Kenneth Cukier”演讲,2013-04-18 GoogleTalks>BIG DATA: A Revolution That Will Transform...
  21. ^ 天下文化出版社对于《大数据》该书的宣传页面


延伸阅读

[编辑]

外部链接

[编辑]