您的当前位置:首页正文

大数据时代

2024-04-02 来源:一二三四网
《大数据时代》读书笔记

Chapter1:引言之大数据 1、

大规模生产、分享和应用数据的时代正在开启(社交网络、电子

商务、移动通信)。数据正成为巨大的经济资产,能够为我们带来全新的创业方向、商业模式和投资机会。数据发展的障碍在于其流动性和可获取性,社会各界正尝试公开数据、方式与方法。(这样的做法有利于数据的共享,使得海量资源在技术支持下得到合适的处理。)

大数据时代的经济学、政治学、社会学和许多其他的科学门类都发生巨大甚至是本质的变化和发展。 2、

大数据分析的基本要素是庞大的数据资源、处理能力和统计技术。

(像谷歌一样的搜索引擎能够得到足够大量的数据资源,在词条搜索的热度中找到某种联系并且进行预测。Eg:流感爆发、机票价格预测,通过大数据分析洞察未知。) 3、

Farecast是大数据公司的一个缩影,海量数据的处理后,帮助我

们应用于商业发展。如今数据已经成为一种商业资本,一项重要的经济投入,可以创造新的经济利益。当思维改变,新时代里,数据被巧妙地用来激发新产品和新型服务。(互联网公司作为数据资源的拥有者,顺利成章的成为新处理技术的领头者。)天文领域、基因领域、金融领域、保险行业都在演绎着数据量的爆发式增长。人类储存信息量的增长速度比经济增长速度快四倍,计算机处理能力的增长熟读比世界经济的增长速度快九倍。 4、

大数据大挑战,我们在分析信息时也产生了三个大转变,这将改

变我们理解和组建社会的方法。

 在数据时代我们可以分析更多的数据,有时候甚至可以处理和某些特别现象相关的所有数据,而不再依赖于随机采样。(使用全体数据能够更加准确的显示数据背后的结果,让我们更清楚的看到样本无法揭示的细节信息。)

 研究的数据如此之多,以至于我们不在追求精准度。(当我们关注的范围足够大,在大数据库中我们 往往不会在意精准度。因为全体数据与采集样本是不同的。)适当忽略微观层面的精确度会让我们在宏观层面拥有更好的洞察力。

 由于前两个转变所致,我们不再热衷于寻求因果关系。追求因果关系是人们长期以来的习惯,但在大数据时代,很多因果关系难以寻求,也没有意义寻求,我们转而关注的是相关关系。相关关系也许不能告诉我们事情为何会发生,但它会提醒我们事情正在发生。大数据告诉我们“是什么”而不是“为什么”。社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好处。

Chapter2:大数据之更多

1、 大数据时代要求不是随机样本,而是全体数据。传统的统计学

目的就是用尽可能少的数据来证实尽可能重大的发现。(这种思维局限使我们找寻的是如何科学获取样本并分析样本,而忽略了随着时代的进步,我们的储存分析能力已经足以应付全体数据,真正应该发展和进步的是究竟该如何处理大时代.)eg:美

国的人口普查与穿孔卡片。实现快速处理数据,但价格昂贵。 2、 关于随机取样法的分析

 随机性是样本选择的核心与关键。有目的的选取样本导致非随机,只会导致结果中更大的漏洞。一旦采样过程存在偏见,采样结果就会相去甚远

 采样分析的精确性随着采样随机性的增大而大幅提高,但与样本数量的增加关系不大。随着样本的数量增多,我们从新个体身上得到的信息会越来越少,如同经济学的边际效应递减。随机性比数量更重要。

 随机采样不适合考察子类别的情况,一旦继续细分采样结果的错误率会大大增加。(也就是说在足够大的空间里取样调查是可行的,但如果范围过小,在某细分领域里个体波动比较大,随机取样的方法就是不可取的。)

3、 捕捉细节,在全数据模式中,样本=总体。我们不应满足在正态

分布的一般平庸现象,真正有价值的结果藏匿在细节中,而随机取样法是不会发现这些细节的。(Eg:谷歌的流感预报,跨境取款业务预警等实例都证明了很多有价值的数据是存在于对总体的调查之中的。)在对日本相扑比赛的调查中我们发现异常性,从而发现非法操控比赛结果的现象。

4、 大数据的大指的是全体数据而不是信息量本身的大小。 5、 人的关系网络。研究发现,如果把一个在社区内有很多联系关

系的人从这个关系网中剔除,这个关系网会变得没那么高效,但不会解体;但如果把一个与所在社区之外的很多人有着连接关系的人从关系网中剔除,整个关系网会碎成很多小块。(我们应当重新审视关系网中的存在价值,铺设社区外关系。) Chapter3:大数据之更杂

1、 不是精确性,而是混杂性。执迷于精确性是信息缺乏时代和模

拟时代的产物。只有5%的数据是结构化而且适用于传统数据库的,而剩下95%的非结构化数据都难以被利用。

2、 小数据意味着收集信息有限,微小的错误都可能会被放大,甚

至影响整个结果的可能性。而大数据是混乱的,更多地是对未来的预测分析,通常是用概率说话而不是板着确凿无疑的面孔。 3、 大数据的混乱体现在错误率的相应增加,整合来源不同的信息

时,他们通常不完全一致,所以也会加大混乱程度。混乱还可以是格式上的不一致,数据形成之前的清洗过程很难做到,因而形成了非结构性数据。(虽然我们收到的信息不再那么准确,但搜集到数量庞大的信息比严格精细的选择更划算。) 4、 大数据与算法。关于改变现有算法还是扩大数据库储存量的问

题,有微软的调查显示,随着数据的增多,四种算法的表现都大大提高了。谷歌翻译器----谷歌翻译开始利用一个更大更完备的数据库,也就是全球互联网,而不再局限于两种语言的文本翻译。语言是数据,而不是一种语言,因而翻译机制并不是靠强大的算法,而是靠海量的数据。(这些未经过滤的网页内容

可能包含有各种各样的错误,但是庞大的语料库系统其优点远大于缺点。)

5、 错误并不是大数据固有的特性,而是亟待我们解决的现实问题,

并且有可能长期存在。(一方面快速准确、成本低、数据量大;另一方面这种混杂性不是竭力避免,而是标准化途径) 6、 在大数据中分类机制会崩溃,那些预设的各就各位的分类标准

在数据规模增加好几个数量级以后会全盘崩溃。在大数据时代的检索系统中能够给图像、视频、音乐等非文本类资源增加标签,通过这种方式提供搜索和推荐服务。

7、 相比依赖小数据和精确性的时代,大数据因为更强调数据的完

整性和混杂性,帮助我们进一步的接近事实真相。小数据的缺点在于,就算我们分析得到细节中的细节,也依然会错过事情的全貌。

Chapter4:大数据之更好

1、 亚马逊书目推荐系统。传统方法是对信息进行处理,通过样本

分析找到客户之间的相似性。而后林登意识到,在技术上更重要的是找到产品之间的关联性“item-to-item”协同过滤技术。提前的估算,可以使推荐系统快如闪电,并且适用于各个种类的产品,而不局限于书籍。数据推荐书目的贡献远远大于书评家。

2、 相关关系提供的恰恰是一种可能性,相关关系强相关链接成功

的概率是很高的。通过给我们找到一个想象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。在大数据时代不再需要人工选取一个关联物或者一小部分相似的数据来逐一分析了。

3、 沃尔玛的零售链。通过将每一条销售记录作为数据,沃尔玛实

现了让供货商监控销售速率、数量和存货情况,其透明度迫使供应商照顾好自己的物流----寄售店的思维控制零售链。 4、 建立在相关关系基础上的预测是大数据的核心。通过找出新种

类数据之间的相互关系来解决日常需要。这种预测分析方法被广泛的应用于商业领域、设备监控、医疗监控等等。 5、 系统依赖的是相关关系,而不是因果关系。它告诉你的是会发

生什么,而不是为什么发生,这正是这个系统的价值。 6、 理解和认知世界的时候有两种基本方法,第一种是不费力的快

速思维,几秒钟就可以得出结果,这种思维不存在因果,主要依靠直觉。第二种是比较费力的慢性思维,有条不紊,对于特定的问题就需要考虑到位。

7、 相关与因果。与相关关系不一样,即使利用数学这种比较直接

的方式,因果关系也很难被轻易证明,因果关系通过实验证明过程是不切实际的。快速清晰的相关关系分析甚至比慢速的因果关系更有用更有效。慢速的因果分析集中体现为严格控制的实验来验证的因果关系。巧妙的通过“类似实验”降低成本,并且能够体现相关性关系。

Chapter5:大数据之数据化变革

1、莫里的海上导航图就是大数据时代最早的实践之一,这说明远在信息数字化之前,对数据的运用就已经开始了。

2、在今天,我们认为大数据的发展和计算机的变革是同步的。现代信息技术让大数据的实现变成可能,但是与此同时信息技术变革的重点决不能仅仅放在Technology,更是在information上面。 3、数字化与数据化。数据化指的是把一种现象转变为可制表分析的量化形式的过程。数字化指的是把模拟数据转变为0和1表示的二进制码。模拟数据和数字化是属于后出现的部分。数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。

4、最开始的罗马数字不利于当今时代的数据化发展,而最终让阿拉伯数字广为采用的是复式记账法的出现。复式记账法的出现是里程碑事件,为会计学和金融学的发展起到不可磨灭的重要作用。(14世纪意大利的会计开始采用的两本账记录交易明细,将借贷相加便可以得知盈亏状况。)

5、当文字变成数据,图片扫描等等是属于数字化进程,而数字化的图像转为文本才可以作为数据。通过光学软件可以实现这种将图片识别为文本的过程。

6、当方位变成数据,方位的信息化成为今天很重要的一个部分。全球定位系统GPS发射成功使得导航变成了可能。这种卫星定位时时刻刻都能够生成信息预测给我们知识,而知识赋予我们智慧和洞见。

7、沟通也是数据,twitter微博等社交软件,在有限的文字中能够展示超凡的丰富的原元素。

8、电子可穿戴设备!(在我理解下,电子可穿戴设备很快会进入社会主流成为大趋势,毕竟这其中获取数据的方式简单不受限)信息的采集与处理等等方面将会变得更容易获取。 Chapter6:大数据之数据价值

1、验证码的诞生,路易斯企图找到一个对人类来说很简单却对机器识别很难的东西来避免恶意和批量的注册评论。最终,他在注册过程中显示一些波浪状、辨识度低的字母,人们能够在几秒钟内识别并输入正确的信息而电脑却不能识别。

2、不同于物质的东西,数据的价值不会随其使用而减少,而是可以被不断处理的。个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样有所损耗。

3、数据真实的价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分的作用都隐藏在表面之下。判断数据的价值需要考虑到未来他可能被使用的各种方式,而非仅仅考虑目前用途。数据的首要价值之外,还有再生价值,这部分还没有被企业和社会充分认识到。 4、所谓数据

数据创新1:数据的再利用

最典型的例子是搜索关键词,消费者和搜索引擎之间的瞬时交互形成了一个网站和广告列表,实现了特定功能,for example,亚马

逊的数据或谷歌都在进行数据再利用业务。 数据创新2:重组数据

处于休眠状态的数据价值只能与另外的数据集结合才能被释放出来。随着大数据的出现,当我们把多个数据集的总和重组在一起时本身价值比单个总和更大,1+1>2. 数据创新3:可扩展数据

监控摄像机仅用于安保,是一项纯粹的成本,而现在却被视为一项可以增加收入的投资。潜在的二次用途使其具有拓展性。 数据创新4:数据的折旧值

随着时间的推移,大多数数据会失去一部分基本用途,继续依赖旧数据不但不能增加价值,还会破坏新数据价值。亚马逊决定只使用仍有生产价值的数据,这就需要不断更新数据库淘汰无用信息。 数据创新5:数据废气

拼写检查系统,将离散交互的信号加以利用,也就是将那些不正确、有缺陷的内容加以利用。谷歌比微软多想一步,除了拼写检查,还挖掘了用户交互,建立了最新最好的拼写检查器。公司将搜集到的客户交互的数据废气纳入到他们的服务中。 数据创新6:开放数据

“开放政府数据”私营部门和社会对数据的利用会比政府更具有创新性。他们呼吁建立专门的官方机构公布民用和商用数据,并且这些数据必须以标准的可机读的形式展现。

6、 数据估值。Facebook根据会计准则计算出来的价值为63亿,

而市场估值为1040亿,账面价值和市场价值的差距如此的悬殊。上亿条的数据都有他们的可获利价值。然而现如今的财务报表模式并不能正确的,科学的评估数据价值,这将为企业带来经营风险和市场波动。(无形资产早期仅包含品牌、人才、战略,现如今公司持有和使用的数据也应逐渐纳入无形资产的范畴。) Chapter7:大数据之角色定位

1、 数据、技术与思维三足鼎立。这也成为了大数据公司的三种来源。

 基于数据本身的公司。Twitter他自身拥有的海量数据都通过两家独立的公司授权给别人使用。

 基于技能的公司。天睿公司是大数据分析公司,不一定掌握数据,但他们有专业技能。

 基于思维的公司。有时数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人的创新思维,他们对挖掘数据新价值的独特想法。

2、 谷歌与亚马逊属于三者兼备的公司,谷歌在刚开始收集数据时,

就已经带有多次使用数据的想法。相对的,亚马逊更关注的是数据的基本用途,只是把二级用途作为额外收益。

3、 数据中间商。随着大数据的推进,先驱者的优势正在逐渐减弱。

“数据中间人”从各个地方搜集数据进行整合,再提取有用信息利用。数据拥有者让中间人充当这样的角色,由他们挖掘数据的价值。中间人在价值链中站在了收益丰厚的位置上,但也并没有

威胁到提供数据的拥有者的利益。

4、 行业专家和技术专家的光芒都会因为统计学家和数据分析家的

出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。行业专家不会真正的消亡,只是他们的主导地位会发生改变。未来,大数据人才与他们同居高位,就像趾高气昂的因果关系也必须与卑微的相关关系分享他们的光芒一样。

5、 大数据对中等规模的公司帮助不大,因为超大型公司占据了规模

优势,小公司则占据了灵活性的优势。在传统的行业中往往是中等公司兼备两个优势,能够成功。  Chapter8:大数据之数据风险

1、大数据的核心思想是用规模剧增来改变现状,如果在隐私和预测方面对大数据管理不当,出现数据分析错误,会导致的不良后果比在线广告要严重的多。

2、传统的数据使用中,使用者必须告知个人,搜集了哪些信息、作何用途,也必须在工作开始前争得个人同意。然而在大数据时代很多数据在搜集时并无意用作其他用途,却产生了很多创新性用途,难以告知当事人。

3、另一条技术途径也就是匿名化,在小数据时代着实可行,但是在大数据时代数据内容的交叉检验使得个人信息能够通过完全不相关联的数据网络找到数据的来源 。在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。出现无效性规则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会

结合越来越多不同来源的数据。

4、用大数据的预测结果判断并且做出惩罚。这样的做法使得人们不是因为所做受到惩罚,而是因为做想做受到惩罚。(尽管大数据的分析是相当准确的,但是其结果也只是对未来发生的预测,是概率事件,不是必然事件。)基于未来可能行为之上的惩罚是对公平正义的亵渎,因为公平正义的基础是人做事情才应当负责。这也违背了法律公平意识的基石--无罪推定原则。大数据给我们带来的威胁不仅仅局限在司法公正之上,还会威胁任何大数据预测对我们未来行为进行罪责判定的领域。

5、大数据通过给予我们关于个人自身更详尽的数据信息,帮我们规避了小数据带来的以某一群体的画像来将群体信息强加于个人。 6、大数据大大威胁我们的隐私和自由。下级为了迎合上级制造刻意的、人为地、主观的数据。然而数据独裁者很容易被数据本身控制,也就是错误的数据前提导致了错误的结论。

7、对数据的过分依赖,例如谷歌公司的典型数据独裁,甚至要求测试41中蓝色阴影效果中,哪种被人们使用最频繁。而往往卓越的才华并不依赖于数据而是依据行业分析。就像是乔布斯推出苹果系列之前并没有进行市场调研,因为消费者并没有义务去了解自己想要什么。  Chapter9:大数据之数据掌控

1、管理变革一:个人隐私保护,从个人许可到让数据的使用者承担责任。 数据的使用价值很大一部分体现在二级用途上,而搜集数据时并未做出这种考虑,所以告知和许可就不再起到良好的作用了。数

据使用者是二级应用的最大受益者,理应当为他们所做的数据研究负责。

2、个人动因VS预测信息。个人可以并应该为她们的行为,而非倾向负责。

3、大数据算法师的崛起。大数据的运作超出我们正常理解的范围之上。外部算法师扮演公正审计员的角色,根据法律指令或规章对大数据的准确程度或者有效性进行鉴定。内部算法师在机构的内部工作,监督其大数据活动。

4、反数据垄断大亨。促进大数据平台的良性竞争,政府必须利用反垄断条例。

因篇幅问题不能全部显示,请点此查看更多更全内容