找回密码
 注册
搜索
查看: 559|回复: 2

预测是大数据最大的用途之一

[复制链接]
发表于 2013-6-15 10:19 AM | 显示全部楼层 |阅读模式


本帖最后由 NG_NM 于 2013-6-15 11:21 AM 编辑

读读《大数据时代——生活、工作与思维的大变革》(浙江人民出版社,2012年版。英文名:Big Data: A Revolution That Will Transform How We Live, Work, and Think)吧,这本书足以让人长舒一口气,作者舍恩伯格(Viktor Mayer-Schönberger)对大数据的定义一点都不玄乎。他在书中给出的定义是,所谓大数据(Big Data),就是大量的数据;它的反义词小数据(Small Data)的定义也同样简单,即很少很少的数据。

至于为何要了解这个概念,大约从2009年开始,“大数据”就成为了互联网信息技术行业的流行词汇,无论是手机、平板电脑还是各种设备的数据传感器,以及物联网、云计算、移动互联网这些概念都与大数据有关。擅于发明各种科技名词的中国IT评论人对什么是大数据,几乎每个人都有一套自己的说法,这往往让门外汉如坠五里雾中。因此,舍恩伯格这种平易近人的介绍,无疑会消除很多人对大数据的畏惧。


大数据被认为是重新发现和认知这个世界的新型分析工具,通过收集和处理大规模数据,人们认识和探索世界的方式乃至思维模式都可能因之改变,以往因受限于工具而采用的抽样调查、再对有限数据进行分析的方法也需要革新。既有方式的颠覆而新的规则尚未建立,世界也总要为此付出些代价。比如隐私将比以前更为暴露。这是否是人们乐见的?相比舍恩伯格另一本谈论大数据的书《删除:大数据取舍之道》,《大数据时代》是更好的入门书籍。本书在什么是大数据、大数据有怎样的典型特征、大数据的实际应用以及大数据发展未来的隐忧等关键问题上,都通过案例做了深入浅出的解释。


它到底会如何改变这个世界?舍恩伯格在书中举了亚马逊的例子,早期亚马逊雇佣了一群书评家为读者荐书,后来发现通过算法,即集合一群对图书质量的判断能力远不如专业人士的普通读者的口味而推出的书单,经过分析并将不同的书单按用户的社交网络进行推送,却能带来更多的购买人群。于是,亚马逊就把书评家们都解雇了。这就是“大数据”的应用。

预测是大数据最大的用途之一。它不仅可以像亚马逊做的那样,为用户提供书单。 它也可以预测机票价格走势,为自费旅游者省钱;还能预测交通拥堵情况,帮助人们选择更好的时段和路线节省出行时间。《麻省理工科技创业》(MIT Technology Review)报道说,英国伯明翰大学(University of Birmingham)的研究团队甚至开发出一种算法,可以精确预测人们在一天内将要去哪里,平均误差仅为20米。而传统的预测算法预测人们出行的平均误差高达1000米。

这又是如何做到的? 这个算法通过追踪用户手机上的个人过往行为模式数据,以及用户手机里的社交关系,能预测这个人在24小时之内会去哪里;传统的预测方法仅通过用户个人行为模式进行预测,但人们也会临时变更路线。当然,新型算法需要收集和分析大量个人信息。


信息数字化的迅速发展,则使得这种新型的数据分析方式变得可行。美国互联网数据中心(Internet Data Center)指出,2000年前后,以数字化形式存储的数据仅占全球数据量的四分之一;而到了2007年时,90%以上数据是数字化数据,剩下不到10%是存储在报纸、CD等介质上的模拟数据。由于数据化数据在复制和传播中不会出现信息失真、噪音叠加等问题,再加上不断廉价化的存储手段,以及同步提高的计算能力,大量以前无法处理的数据,有了分析、解读它们的可能。

模拟信息在复制和传播过程中会出现信息失真、噪音叠加,比如一张纸连续复印三次之后,噪点越来越多、字迹越来越模糊;一盘音乐磁带连续翻录多次之后,令人厌烦的“嗞嗞”声越来越大。因此信息收集、复制、存储以及分析的成本就极为高昂,所以只能收集极少量的数据进行分析。统计学的发明就是为了来应对这种不足,通过对少量数据的分析,去推导、证实重大发现。


“大数据”时代的到来,将颠覆人们现有的做事逻辑。以往一般都是先想好目的,再去获取相应的信息;而到了“大数据”时代,思维方式就变成了先尽可能多地占有信息,遇到问题时从这海量信息中去“挖掘”解决方案。这两者的区别就像普通相机与光场相机(light field)的区别,据美国科技博客网站Venturebeat的报道,2012年3月,美国硅谷创业公司Lytro开发的光场相机正式出货。与普通相机不同,光场相机可以在拍摄完照片之后再对焦。在拍摄时,光场相机先记录镜头范围内所有的光,具体生成的照片聚焦在什么位置,可以在拍摄完成之后根据需要再决定。

但这种变革也势必带来动荡。由于自己多年积累被算法取代的愤怒,那些被亚马逊解雇的书评家抱怨说:(通过算法推荐书单)那种感觉就像你和一群脑残在一起逛书店。大数据时代的信息质量特性的确会越来越“脑残化”:因为它强调数据量的多和杂,而非小数据时代的少而精;分析数据时放弃因果关系,而强调相关关系;它放弃知其所以然(为什么),只需知其然(是什么)就可以了。豆瓣阅读为什么给你推荐《中国合伙人》?可能仅仅是你的朋友最近点了“想看”或“看过”;新浪微博的推荐逻辑也如此。如果你有很多朋友喜欢同一个事物,那么你喜欢这个事物的概率也会大一些。

这只是“大数据”可能导致的变化中的一个,对隐私的侵害无可避免成为大数据这把双刃剑最明显的负面作用。舍恩伯格在书中指出,“大数据”将颠覆现有的隐私保护法以个人为中心的立法基础。未来在个人数据采集与数据授权上,需要有新的隐私保护方案。无论亚马逊凭借算法给出书单,或者伯明翰大学预测会去哪里的新型算法,前提都是让渡自己的隐私信息。这意味着在大数据时代,人们将面临严峻的隐私问题。而现有的信息管理方式、隐私保护措施届时都将不再适用。


现在,数据采集者需要告知数据提供者其采集的数据用途为何,也必须在收集工作开始之前征得个人的同意,但是这并不意味着重视隐私保护的个人就能高枕无忧了。以谷歌街景项目(Google Street View)为例,谷歌采集了街道上的几乎全部信息,如果有某人不同意其私人信息显示在谷歌街景中,谷歌会将该信息模糊化处理。然而这往往会使隐私更为突出:当其他人的信息都呈现在街景图中时,“马赛克”(模糊化处理)的部分反倒成了焦点。在大数据时代,即便数据采集者一开始就采集行为本身和数据应用方向行使了告知义务,但许多公司采集用户数据时的目的与最后使用的目的往往不同,而且数据的价值不仅仅局限于它的基本用途,更多在于它的二次甚至多次利用。在大数据信息收集和利用日益增长的链条上,增添了信息被收集者滥用或被黑客侵入而盗用的风险。以上种种,都为隐私保护带来了挑战。

在大数据时代,无处不在的电脑、平板、手机上的摄像头以及安装在建筑物上或是交通信号灯上用于安保作用的监视摄像头,就像是大大小小的摄像机时时刻刻地对准每一个人。2007年,英国报纸London Evening Standard的一篇题为《乔治·奥威尔,老大哥在监视你的房子》(George Orwell, Big Brother is watching your house)的报道指出,摄像头和电脑正在监视人们的一举一动,就像奥威尔在小说《1984》中描述的那个社会,每个人都被老大哥注视着。上述报道指出,就在奥威尔一直居住到去世的伦敦公寓外,在方圆200码(约合182.88米)的范围内,有32台摄像机。 如果奥威尔生活在现在,他会做何感想?



发表于 2013-6-15 10:21 AM | 显示全部楼层
预测是大数据最大的用途之一.
回复 鲜花 鸡蛋

使用道具 举报

 楼主| 发表于 2013-6-15 04:48 PM | 显示全部楼层
本帖最后由 NG_NM 于 2013-6-15 05:50 PM 编辑

“大数据”时代的到来,将颠覆人们现有的做事逻辑。以往一般都是先想好目的,再去获取相应的信息;而到了“大数据”时代,思维方式就变成了先尽可能多地占有信息,遇到问题时从这海量信息中去“挖掘”解决方案。“

BD, 简单一句话:屁股决定脑袋,还是脑袋决定屁股。


回复 鲜花 鸡蛋

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2024-11-17 05:50 PM , Processed in 0.031006 second(s), 14 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表