学习啦>在线阅读>读书笔记>

2023年大数据时代读书笔记

时间: 海露0 分享

大数据时代成为炙手可热的话题。笔者在这说明信息和数据,只是试图首先说明信息、数据的关系和不同,也试图说明,为什么信息时代转变为了大数据时代?大数据时代带给了我们什么?下面是为大家精心整理了一些关于《大数据时代》读书笔记,欢迎查阅。

《大数据时代》读书笔记1

《大数据时代》这本书主要描述的是大数据时代到临人们生活、工作与思维各方面所遇到的重大变革。

引言提出了大数据将给生活、工作于思维带来重大的变革。一个例子是2019年H1N1流行病毒背景下谷歌通过检测检索词条,处理了4.5亿个不同的数据模型,通过预测并与2019年、2019年美国疾控中心记录的实际流感病例进行对比后,确定了45条检索词条组合,并将其用于一个特定的数学模型后,预测的结果与官方数据的相关系数高达97%。按照传统的信息返回流程,通告新流感病毒病例将有一到两周的延迟。

对于飞速传播的疾病,信息滞后两周是致命的。而谷歌运用大数据技术,以前所未有的方式,通过海量数据分析得出流感所传播的范围,为世界预测流感提供了一种更快捷的预测工具。此外,我联想到原淘宝董事长马云通过大量数据分析得出2019年经济疲弱,为其商家提前做好迎接经济危机提供了时间缓冲。

关于大数据在商业领域的应用, Farecast公司是一个成功的典型范例。该公司由奥伦·埃齐奥尼创办,利用机票的销售数据来预测未来的机票价格,旨在帮助用户在购买机票方面做出预测,并对机票价格走势预测的可信度标示出来供消费者查考。Farecast系统利用近十万亿条价格记录预测的准确度达75%,使得使用Farecast票价预测工具购买机票的旅客,平均每张机票节约50美元。而处理如此多的数据离开了大数据技术将无法进行。

也正是由于我们进入了一个前所未有的信息化时代,人们拥有了如此多的数据,才提供给我们利用大数据的分析处理手段,创造新的价值。也许有人以为我们大数据时代的还未来临。其实大数据技术早已渗透到我们中间,它被应用在垃圾邮件的过滤,新浪微博技术平台,谷歌翻译以及输入文字的自动纠错等。

文中提出的一个观点是,预测是大数据的核心。其实从过去的时代人们就利用掌握的数据进行各种分析,从而对经济等各方面进行预测、矫正。只是进入了大数据时代人们掌握的数据爆炸性的速度在增长,从而数据的存储和分析数据分方法成了释放大数据能量的关键。

大数据时代是信息化社会发展必然趋势,我们只有紧紧跟随时代发展的潮流,在技术上、制度上、价值观念上做出迅速调整并牢牢跟进,才能在接下来新一轮的国际竞争中摆脱受制于人的弱势境地,才能把握发展的方向,冲破与西方国家的差距。

《大数据时代》读书笔记2

我们生活在一个“概念”纷飞的年代,先前只有IBM熟谙的招数,如今已经“飞入平常百姓家”。“移动互联网”、“云计算”的概念刚刚消停,业界的专家又送来了“大数据”的概念,一时间似乎人人都变成了“大数据”专家,见面要是不提“大数据”都不好意思跟人打招呼!

玩笑归玩笑,当我们的存储能力、计算能力和网络带宽变得充裕之后,我们先前对待数据,尤其是原始数据的态度和思维方式,将面临着很大的改变!

其实,作者的主要观点,已经在翻译者的译者序中进行了总结:“大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果”。

如作者所言,“采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物”。如果可以,我们当然会使用“全体数据”而不是“抽样数据”。读到这里,我估计大学里正在绞尽脑汁设计样本抽样方法的学生、教授们,连哭的心都有!

数据分析的及时性,在很多情况下比精确性更加重要,尤其是在商业领域。想想看,如果需要两周时间才能计算出明天某个航班的满座率,那还有什么意义?大数据计算技术,适用的不是像卫星发射、开具银行账户这样的工作,而是不要求极端精确的情况,其核心是“预测趋势”,况且原始数据也可能出现差错。

过往千年,探究因果关系几乎是所有科学研究的原动力。甚至,这已经通过语言,融入我们的思维方式和哲学思想:“因为……所以……”,凡事都要问“为什么”。但是,在大数据的范畴里,关注的却是相关性,而不是因果关系,或者其次才是因果关系。超市只用关心把啤酒和尿不湿放在一起,会帮助提高销售额,而不用关心其中的奥秘。如果说原因,可能很多都是人们的习惯、方便,甚至是人性,例如奶爸们习惯买尿不湿的时候给自己捎上几罐啤酒。

在此,也有一些自己的思考:如果说搜索引擎所解决的问题表面上是帮助用户找到需要的信息,而实质是帮助企业找到拥有某项需求的客户,深层次讲是解决了《第三次浪潮》中提出的消费者和生产者分离的根本矛盾,如果再加上3D打印技术,就可以完成由消费者主导的“个性化”生产过程;而大数据所解决的是,通过对所有用户的数据进行分析,可以预测用户群整体的需求变化趋势,从而完成批量产品生产、销售的调整问题,其奇妙之处就在于无需用户“开口”说出她想要什么?一个解决的“个体需求”,一个解决的是“群体需求”。

本书除了提出上述三项基本观点,其它的内容大多是举例说明,多少有些空泛。但是,其实大数据时代才刚刚开始,对大数据的应用也只是停留在比较浅的层面上,作者能提出这三项基本观点已属难能可贵!

《大数据时代》读书笔记3

舍恩伯格的《大数据时代》被人推崇为2019最佳书籍,今年安泰读书会的重头戏。虽然主讲人最后放了个香港大黄鸭般的鸽子,但现场讨论氛围依旧非常热烈——而且还是在没几个人读完的情况下,也就意味着——大数据对我们的影响,已经深入到生活的方方面面。这本书对这个大规模产生、分享和应用数据的新的大时代进行了阐述和厘清,作者围绕“要全体不要抽样、要效率不要绝对精确、要相关不要因果”三大理念,通过数十个商业和学术案例,剖析了万事万物数据化和数据复用挖掘的巨大价值。

无处不在的大数据:各种云计算,谷歌的神通,亚马逊的推送,天涯人肉,微博万能等等等等,我们掌握了新的工具,也获取了以前从未有过的各种信息。大数据拉近了我们与现实的距离,“地球村”变成了“地球屋”,仿佛所有人所有事物都触手可及,而这些牛逼哄哄的互联网巨头就在客厅展示着世界的每一寸光景。如作者所言“大数据开启了一次重大时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们看清微生物一样,大数据要改变的是,我们的生活方方面面以及理解世界的方式”。比如,谷歌通过全球搜索分析,比国际疾病控防中心更早更准地预测了流感爆发。

然而,事实真的是这样吗?首先,从应用角度出发,低廉的运算能力和存储空间,让以前的样本分析显得非常简陋——一些从全体数据挖掘出来,忽略精确而从大量数据的简单算法得出来的结论颠覆了常识。但个人觉得,这只是统计学的终极目标——并没有非常大的跨越,可能终结了回归分析,有效性验证等手段,但依旧还是统计。而革命性在于关注相关关系而非因果关系。现场讨论从神学角度挑战了因果关系的不可能——或者说人类用简单思考的逻辑来定义因果,以及用之前小数据演绎出大概率事件来推导因果,都是不正确的。真正的因果关系应该属于上帝的范畴,人类如果真的完全掌握之后,会统治整个宇宙。

但我觉得,无需从神学观点来讨论,而可以借鉴量子力学对经典力学的颠覆——在原子层面上,经典力学会失效——那么在大数据层面上,普通的抽样调查直观反映会失效。而且从量子力学角度是很难推导经典力学的公式,那么从现在的惯有思维,也难以推导出大数据的因果关系。同时现场有讨论,是否计算机可以精确地模拟每个原子,然后完整地展现微观到宏观的化学反应细节?我觉得首先是计算能力不足,其次即便设定原子的运动条件真的正确,计算结果未知但宏观结果我们却已经知道——牛顿的经典力学足以应付日常绝大部分情况了。好比切西瓜,究竟刀头的铁原子和西瓜的有机分子如何作用,真的重要吗?回归到商业领域,如果我们可以提高相关性的准确度,从而提高投入效率,那就已经足够了。本来一个产品受到一半客户喜欢,但如果通过大数据挖掘到更好的定位,有百分之八十的客户喜欢,那么价值已经非常可观了。

大数据时代的社会伦理——很大的命题,但重点都在讨论如何保护个人隐私。因为手机越来越智能,网络越来越快,个人的信息也越来越透明——隐形几乎完全不可能。我想说的是,作为硬币的另外一面,我们无法舍弃:互联网只不过是让人与人之间碎片的关系得以统一,其实各种人肉和信息只不过是坊间传闻的升级罢了。当我们住在拥挤的小区,三公里走完一圈的县城,半小时散步完的村落,人和人之间有隐私吗?现在只不过是把这个范围放大到了一个地球而已。硬币的一面是人和人之间有沟通的需要,去团结对抗世界的未知,那么另外一面就是隐私的缺乏。与其说是要在大数据时代保护自己的信息不被泄露,不如站起来维护自己和他人的隐私,从法律和道德的角度来尊重人与人之间的权利。在一个互相尊重的环境下,你可以穿热裤,他也可以穿长裙走上街头;在一个互相践踏的社会中,人人都得带着面具生活。

在思维变革部分,作者讲述的重点是:样本=总体,我们需要对全部数据的占有和分析;因此,数据缺乏时代的精确性不必执迷,接受混杂基于大数据的简单算法比小数据的复杂算法更有效;样本推断的因果关系不重要了,知道“是什么”的相关关系,或者结果就可以了。对于我自己最受用的是什么呢?是大数据的产业链。产业链包括大数据平台、大数据技术提供方、大数据理念提供方。我认为大数据平台是整个产业链条的核心,没有数据,再好的技术和理念都会是无米之炊。那么大数据平台在当前的中国社会有哪些呢?所有的互联网公司,物联网公司,物流,快消品等等,实际上任何公司都是数据平台公司,只不过之前没有好好的利用数据,而更多的是用经验来管理公司和迎合客户需求。现在不一样了,我们完全可以用数据来驱动公司管理和客户管理,毕竟数据是不会骗人的。

大数据帮助我们把未来的迷雾拨开了一点,但好比《沉重的肉身》当中讨论的,更多的选择权并不能带给人幸福——因为知道自己不能做不能得到的也更多了。解决工作模式,生存意义,幸福之道等问题,关键还是看自己如何看待和使用这些新式工具以及新结论。引用《神探伽利略》里面的台词:可被重复的,一定有道理存在。那么现在重复的越来越多,更需要保持探索和敬畏之心,人才不会迷路。

《大数据时代》读书笔记4

这两年,大数据,云计算的思想就像小苹果的音乐一样,传的到处都是,每一个公司不管是互联网公司还是传统企业,都标榜自己的大数据。

1、实体物联网与虚拟物联网

曾几何时,物联网的概念闹得风生水起,庞大的物联网能够让世间大量的物体,都能够被检测 并联网,包括了人、车、房等一切能够被联网的物体,这些物体都能够以种方式被感知他的存在,并对其信息记录在案,以供使用。在若干年前,这还是一种看似遥不可及的事物,要对每个物体都贴上一个所谓的RFID的标签,显得不切实际。如今,随着手机的大量使用,人类本身也被加入了物联网中。为什么要物联网?是为了获取什么?要知道物联网获取了什么,只需要看看在一个物体在没有加入物联网与加入物联网之后,我们多出了哪些东西便能够知晓。那么,很明显,我们需要通过某种方式来获取该物体的信息,这种存储下来的信息,就叫做——数据。

物联网产生的数据是实体的物品之间的信息,而现在的互联网上,占最大数据量的,是虚拟物品,或者叫做网络虚拟物品。由于网络物体是直接寄生于网络,具有能够方便的接入网络的特征,因此,在获取实体物体信息还有一定难度的时期,占有很大优势。但今后实体的物联网产生的数据量一定会不断增加,或许,能够超越网络上的物物相连数据量。

网络的广泛使用,使得信息的产生于传遍变得容易,每个接入网络的人都以一定的角色存在,都是网络的信息的创造者。对于所产生的信息而言,每个接入网络的人又身兼多角,对于网络服务商,他是网络使用者的角色;对于门户网站而言,他是使用的用户;对于社交网站而言,我们则扮演一个虚拟或者真实的网络角色;对于浏览器而言,他是一系列的浏览网页、一些列鼠标动作的角色… 不同的角色取决于对方需要从我们的行为中获取哪些信息。将网络上各种角色看成是虚拟的物体,那么,这种虚拟物体构成的虚拟物联网便产生了巨大的数据量。经历过一直以来缺乏信息获取渠道的日子,现在,既然信息获取变得如此容易,那么,必然迎来信息量暴增的时代——大数据时代。

2、思维的转变

技术的改变,使得我们思维方式也要随之发生变化。在过去的小数据时代,由于获取信息、存储信息、整理信息都是费时费力的活,我们只能精打细算,捉摸着如何以最小的代价、最快的方式来收集尽可能准确的信息。之所以会有抽样统计的方式,是受技术所限,无法获得全体的样本,或者就算获取了也无法在合理的时间内进行处理。由于信息获取代价大,使得我们不得不在获取信息前,就把一切都想清楚,才能够着手处理。这就像在计算机出现的初期,使用纸袋来编码的时期,一次出错的代价太大,所以人们不得不在输入前将代码验证过无数遍之后才敢输入到机器中。而现代计算机让编码的效率大大提升,这才使得人们能够创造出更加强大的软件。人们不需要在着手编码前就对代码过分深思熟虑,因为机器会帮助你解决一些问题。因此,那些担心由于获取数据太方便,进行数据处理、分析代价太小而使人们变得懒惰或者做事欠考虑的家伙,真是杞人忧天。历史上,技术的进步都会提升人类的生产力,但却没有让人们变得懒惰,因为与此同时,欲望也随之增长。人类只会变得更伟大。

因此,大数据时代,这个数据更加全面的时代,我们可以涉足一些之前由于缺乏数据而无法涉及的领域,例如——预测。这是一个令人兴奋的领域,但其实这个领域早有苗头,而且大家都是受益者。我们平时使用的输入法中的智能联想功能,能够根据我们之前输入的文字,来预测我们接下来有可能输入的文字,以节省我们的输入时间。这种算法里,没有人工智能,而只有人们大量的输入习惯的统计,通过大量数据的统计来预测,是一个统计学的方式而非加入了特有的规则或者逻辑。这便引出了在大数据时代,对于信息处理的一种重要方式,基于统计,得出不同个体的相关关系,却无需了解其因果关系,而我们则受益于相关关系。这种方式,看似有些投机取巧,却能够在关键时刻令我们处于优势地位。我们已经习惯了先知道某些事物的因果逻辑,继而推断出相应的结果。但世间总会有一些令人无法用合理的逻辑进行解释的现象,若通过大数据分析,我们能够跳过逻辑阶段直接享用某些一些结果(沃尔玛的啤酒加尿布案例),岂不乐哉。当然,严密的逻辑永远是值得尊敬的。

3、互联网的黏性

在经历过了从广度上通过新花样来吸引用户的时代,由于技术的提高,一个创业者在一个新的领域开辟的东西很容易被其他人所复制。在这个时候,深度很重要。特别是购物网站、微薄、门户网站这类信息量大的网站,越是了解一个用户,优势就越大。所以,在技术已经不是最重要的因素的时代,如何增加用户的黏性、忠诚度便是首要的。通过用户之前的信息,来推测用户的喜好,给用户推荐相应的信息或物品。当你越了解一个用户,而别人却不了解时,这个用户就越离不开你。微薄中有他的智能排序功能、新闻门户中有“今日头条”应用,各类购物网站有他的推荐算法(但这个纯粹为了增加消费而非增加用户黏性),都能够根据用户之前的浏览、偏好来给出相应的推荐。这些的基础,都是拥有用户的行为记录,否则,都无从谈起。

在手机这个拼硬件的时代,单纯靠硬件来取胜已经很难了。硬件靠组装、软件靠安卓,手机厂商已经变得没有核心竞争力。而三星为了增加用户黏性,所做的便是为用户提供更加贴心的服务,不仅做手机,还做平台,将用户的各类数据记录在他的平台中,而这数据,必将大有作为。然后,如果哪天,三星也出智能体重计、智能手表这类产品,那么也不稀奇了。各类数据同步、整合,为使用者提供各方面贴心的服务,很酷吧。

各行各业,都在疯狂的抓紧时机,获取数据,拥有足量的数据,那一切就变得皆有可能。

《大数据时代》读书笔记5

这本书里主要介绍的是大数据在现代商业运作上的应用,以及它对现代商业运作的影响。

《大数据时代》这本书的结构框架遵从了学术性书籍的普遍方式。也既,从现象入手,继而通过对现象的解剖提出对这一现象的解释。然后在通过解释在对未来进行预测,并对未来可能出现的问题提出自己看法与对策。

下面来重点介绍《大数据时代》这本书的主要内容。

《大数据时代》开篇就讲了Google通过人们在搜索引擎上搜索关键字留下的数据提前成功的预测了20--年美国的H1N1的爆发地与传播方向以及可能的潜在患者的事情。Google的预测比政府提前将近一个月,相比之下政府只能够在流感爆发一两个周之后才可以弄到相关的数据。同时Google的预测与政府数据的相关性高达97%,这也就意味着Google预测数据的置信区间为3%,这个数字远远小于传统统计学上的常规置信区间5%!而这个数字就是大数据时代预测结果的相对准确性与事件的可预测性的最好证明!通过这一事以及其他的案例,维克托提出了在大数据时代“样本=总体”的思想。我们都知道当样本无限趋近于总体的时候,通过计算得到的描述性数据将无限的趋近于事件本身的性质。而之前采取的“样本<总体”的做法很大程度上无法做到更进一步的描述事物,因为之前的时代数据的获取与存储处理本身有很大的难度只导致人们采取抽样的方式来测量事物。而互联网终端与计算机的出现使数据的获取、存储与处理难度大大降低,因而相对准确性更高的“样本=总体”的测算方式将成为大数据时代的主流,同时大数据时代本身也是建立在大批量数据的存储与处理的基础之上的。

接下来,维克多又通过了IBM追求高精确性的电脑翻译计划的失败与Google只是将所有出现过的相应的文字语句扫描并储存在词库中,所以无论需要翻译什么,只要有联系Google词库就会出现翻译,虽然有的时候的翻译很无厘头,但是大多数时候还是正确的,所以Google的电脑翻译的计划的成功,表明大数据时代对准确性的追求并不是特别明显,但是相反大数据时代是建立在大数据的基础住上的,所以大数据时代追求的是全方位覆盖的数字测度而不管其准确性到底有多高,因为大量的数据会湮埋少数有问题的数据所带来的影响。同时大量的数据也会无限的逼近事物的原貌。

之后,维克托又预测了一个在大数据时代催生的重要职业——数据科学家,这是一群数学家、统计学与编程家的综合体,这一群人将能够从获取的数据中得到任何他们想要的结果。换言之,只要数据充足我们的一切外在的与内在的我们不想让他人知道的东西都见会在这一群家伙的面前展现得淋漓尽致。所以为了避免个人隐私在大数据时代被这一群人利用,维克托建议将这一群人分为两部分,一部分使用数据为商业部门服务,而另一群人则负责审查这一些人是否合法的获得与应用数据,是否侵犯了个人隐私。

无论如何,大数据时代将会到来,不管我们接受还是不接受!

我觉得《大数据时代》这本书写的很好,很值得一读。因为会给我们很多启发,比如你在相关的社交网站发表的言论或者照片都很有可能被“数据科学家”们利用,从而再将相关数据卖给各大网店。不过,事实就是我们将会成为被预测被引诱的对象。所以说,小心你在网上留下的痕迹。

我喜欢这本书是因为它给我展现了一个新的世界。

2021年大数据时代读书笔记相关文章

大数据时代读后感范文

大数据时代读书心得体会

774080