
大数据与我们的生活
2013年被称为“大数据元年”,这一年几乎所有的世界级互联网企业,都将业务触角
延伸至大数据产业;无论社交平台逐鹿、电商价格大战还是门户网站的竞争,都有它的影子。
如今,一个大规模生产、分享和应用数据的时代正在开启。《大数据时代》的作者维克托教
授曾说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部
分都隐藏在表面之下。互联网的出现使得我们身边的社交网络,电子商务与移动通信把人类
社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据的新时代。而发掘数据价
值、征服数据海洋的“动力”就是云计算。云计算出现之前,传统的计算机是无法处理如此
量大并且不规则的“非结构数据”的。而以云计算为基础的信息存储、分享和挖掘手段,可
以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。
大数据与云计算是一个问题的两个方面:一个是问题,一个是解决问题的方法。那么在这里
普及一下云计算的概念。云计算(Cloud Computing)是分布式处理(Distributed
Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者
说是这些计算机科学概念的商业实现。云计算的基本原理是,通过使计算分布在大量的分布
式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这
使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。它意味着计算
能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不
同在于,它是通过互联网进行传输的。这里我们没有必要将云计算的概念搞得十分透彻,因
为它本身就像云一样,我们只需要知道它可以为我们提供本地主机无法提供的超强计算能力
和各种服务,可以用云计算的方式解决许多在原本看来无法解决的问题。
我们回到正题,什么是大数据?
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需
要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样
化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机
分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
而IBM则提出了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多
样)、Veracity(精确)、Value(价值)。大量是指数据量的规模可以从数百TB到数十百TB
甚至EB。高速是指大数据需要在一定的时间限度下得到及时的处理。多样是指大数据包括
各种格式和形态的数据。精确是指大数据的处理结果要保证一定的准确性。价值则是大数据
的根本所在。
数据的收集方式有很多方法,通过浏览器可以获取用户上网的浏览记录,搜索引擎可以
轻而易举地获取全球每天发出的数十亿条搜索指令,购物网站可以得到顾客的购买记录,也
可以根据人们在社交软件上面的聊天记录来收集有用的信息,还可以通过让别人做网页上面
的答卷来收集信息,知道人们对于一种东西的看法和态度。
这些收集起来的数据就会全部都储藏在一起,然后有用的时候就会用特殊的软件来分析
处理这些数据,国家有国家的数据,很多的公司也有自己的数据库,一个公司的数据库越大
就代表了这个公司的实力越强,未来发展的可能性也就越大越好。
当然这些数据最主要的并不是绝对的大,而是有用的信息比较多,覆盖的范围比较广,
是一种相对的大。这样分析出来的结果也就越准确,这些数据可以准确的反映现在社会上面
发生的事情和现在人们的心理状态,可以预测到很多事情的未来的发展方向,有的公司可以
根据这些数据发现自己的不足和管理漏洞,及时的改变和处理,延长企业的寿命,增加企业
的资产和竞争能力。通过数据,也可以知道现在社会上面主流的东西是什么,只有抓住主流
的社会,才能跟上时代的步伐,顺应历史的潮流,抓住机遇,发展自己的公司和事业。
大数据时代的三个转变
大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的
方法。
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某
个特别现象相关的所有数据,而不再依赖于随机采样。19世纪以来,当面临大量数据时,
社会都依赖于采样分析,但采样分析是信息缺乏时代和信息流受限制的模拟数据时代的产物。
为了让分析变得简单,我们会把数据量缩减到最小,潜意识里认为我们与大量数据的交流困
难是自然现象,而没有意识到这只是当时技术条件下的一种人为限制。与局限在小数据范围
相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节。
第二个转变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。当我们测量
事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。这种思维方式适用于
掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽可能精确地量化我们
的记录。当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。拥有了大数
据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。并不是说我们完全
放弃精确度,只是适当忽略围观层面上的精确度让我们在宏观层面拥有更好的洞察力。
第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,在大数据时代,我
们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常
新颖且具有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但它会提
醒我们这件事请正在发生。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,
我们不必知道现象背后的原因,我们只需要让数据发声。
要全体不要抽样
当我们可以获得海量数据的时候,采样这种用最少的数据得到最多信息的方法就没什么
意义了。随着收集和处理数据的技术能力越来越强,我们更加倾向于“样本=总体”的数据
处理方式。收集的数据越来越多,分析和预测结果就会越来越准确。乔布斯在与癌症抗争的
过程中采用了不同的方式,成为世界上第一个对自身所有的DNA和肿瘤DNA进行排序的
人,他得到的不是一个只有一系列标记的基因组样本,而是包括整个基因密码的数据文档。
对于普通的癌症患者,医生只能期望他的DNA排列同实验中使用的样本足够相似,但是,
乔布斯的医生们能够基于乔布斯的特定基因组成按所需效果用药。如果癌症病变导致药物失
效,医生就可以及时更换另一种药。虽然传奇的乔布斯最终在2011年离开了这个曾被他改
变的世界,但是这种获得所有数据而不仅仅是样本的方法还是使他的生命延长了好几年。
要效率不要绝对精确
对于小数据而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量
比较少,所以我们必须确保记录下来的数据尽量精确。同时我们需要与各种各样的混乱作斗
争。混乱,简单的说就是随着数据的增加,错误率也会相应的增加,还可以指格式的不一致。
2000年的时候,微软研究中心一直在寻求改进Word中拼写检查的方法。但是他们不能确
定是努力改进现有的算法、研发新算法还是添加更细腻精致的特点更有效。所以在实施这些
措施之前,他们往现有的4种常见算法中添加更多的数据,先是一千万字,再到一亿字,
最后到十亿。当数据只有500万的时候,有一种简单的算法表现很差,但当数据达到10亿
的时候,它变成了最好的,准确率从原来的75%提高到了95%以上。相反少量数据情况下
运行的最好的算法,加入到更多的数据时也会像其他算法一样有所提高,但却成了在大数据
条件下运行得最不好的,它的准确率从86%提高到了94%。2006年,谷歌公司也开始涉
足机器翻译。谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样
语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些国际组织发布的官方文件和
报告的译本。谷歌翻译部的负责人指出,“谷歌的翻译系统不会像IBM的Candide一样只
是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿文档。”尽管
其输入源很混乱,但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的。和微软一
样,谷歌翻译的成功在于它接受了有错误的数据。这就是“训练集”,可以正确地推算出英
语词汇搭配在一起的可能性。
要相关不要因果
亚马逊公司为了提高书籍销量,最初雇佣了一个由20多名书评家和编辑组成的团队,
他们创立了“亚马逊的声音”这个版块,为的就是发掘潜在的顾客,提高顾客购买商品的概
率。后来,亚马逊的创始人以及总裁林登,决定尝试一个极富创造力的想法:根据顾客个人
以前的购物喜好,为其推荐具体的书籍。亚马逊从每一个顾客身上捕获了大量的数据,顾客
的信息数据量非常大,亚马逊先用传统的方法对其进行处理,通过样本分析找到客户之间的
相似性。但是这种算法的推荐效果并不好。很快,林登意识到推荐系统实际上并没有必要把
顾客与其他顾客进行对比,而只需要找到产品之间的关联性。这样一来,每个人登录了亚马
逊网站后看到的商品信息都会与自己曾经的浏览、购买记录相关联,是专门为我们每个人“设
计”的网页。
我们身边的大数据
搜狗输入法
最新版本的iOS版搜狗拼音输入法可以通过已经输入的文字来预测下一个可能需要输
入的文字。电脑版的搜狗拼音输入法可以纠正拼音输入时的错误比如说我们输入了
zengzahng,输入法会自动纠正为zengzhang,从而匹配出“增长”
各类猜你喜欢
一是从你的购买或浏览记录分析,推荐相似的产品。二是从人的角度,推荐和比较相似
的其他人所购买的产品。
Siri的语音识别
iDevices的Siri语音识别功能已被证明非常受欢迎,它也受到大数据的支持。通过机
器捕捉的语音数据被上传到云分析平台上,在那里与其他用户数以百万计的输入命令进行对
比,帮助其更好地识别语音模式(机器学习),更精确地将用户与他们正在寻找的数据匹配
起来。
大数据存在的问题
大数据能告诉我们是什么,但不能告诉我们为什么
尽管大数据能够非常好地检测相关性,特别是那些用小数据集可能无法测出的微妙相关
性,但是它并不会告诉我们哪一种相关性是有意义的。
大数据只能是辅助工具,通过大数据下结论是有风险的
大数据可以辅助科学调查,但不可能成功地完全代替。比如谷歌预测流感的案例曾经是
大数据的典范。2009年,谷歌通过相当大的宣传称它可以通过分析与流感相关的搜索预测
流感爆发的趋势,这种准确性和快速甚至超过了疾病控制和预防中心等官方机构。但是几年
后,谷歌宣称的流感预测并没有得到好的结果。最近一篇《科学杂志》的文章解释道,谷歌
流感预测的失败很大程度上是因为谷歌搜索引擎自己在不断的更新,这个时候收集的数据未
必能够适用于下一个时候收集的数据。
大数据可能导致大错误
如果你在两个变量中不断地寻找相关性,那么你很可能会纯粹出于偶然发现虚假的相关
性,即便在这些变量中并没有实际意义的联系。缺乏谨慎的检查,大数据的量级会扩大这些
错误。
炒作
大数据的支持者宣称它是革命性的进步。但是即便是给出大数据的成功例子,比如谷歌
流感趋势的预测,即便有用但对于一些更大的事这些显得微不足道。相比19世纪和20世纪
的伟大发明比如抗生素,汽车,飞机,大数据所得出的东西实在算不了什么。

本文发布于:2023-05-22 23:59:33,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/168477117349680.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:大数据与我们的生活.doc
本文 PDF 下载地址:大数据与我们的生活.pdf
| 留言与评论(共有 0 条评论) |