关于数据之巅(大数据时代) 的知识大家了解吗?以下就是小编整理的关于数据之巅(大数据时代) 的介绍,希望可以给到大家一些参考,一起来了解下吧!
数据之巅(大数据时代)
【资料图】
通常,人们很少读书,尤其是非小说类的书。这并不奇怪,因为当我们不知道哪里有好书可以读的时候,或者一本厚厚的书摆在你面前的时候,很多人可能不知道如何下手,也不确定如何调动自己的热情和兴趣来读完它。一项调查显示,2017年,中国人能完整读完2本书的比例不到40%。当然,我可能会远远超过它。一年20-30本应该没问题,还是非专业书。每当我读完一本好书的时候,我总会急着想把它介绍给你,因为越早读一些好书,越能提高我的认知水平。然后我想我会在以后的微信官方账号陆续给你介绍一些优秀的书籍。今天,我将向您介绍数据之巅。
涂子沛,江西吉安人,著名信息管理专家,科技作家,《大数据》和《数据之巅》作者。毕业于华中科技大学计算机系。在武警部队和 *** 部门工作十年,开发了国内之一套缉私遣返信息管理系统,担任边防巡逻艇指挥员,多次获得立功奖励。辞去公职后赴美留学,获得卡内基梅隆大学公共管理与信息科学硕士学位。在美期间做过数据仓库程序员、数据部经理、数据中心主任、亚太事务总监、首席研究员等。一家软件公司的老板。2014年12月任阿里巴巴副总裁,分管大数据事务。
他曾经在一个座位上做过一个节目《数据开放与公民精神》,提到了数据处理的三个层面:“收集数据是一种意识,使用数据是一种习惯,开放数据是一种态度。”这本书在罗辑思维书目第二季第十八集《大国不可数》中有非常充分的介绍。我推荐你也看看。
看这本书的时候,很佩服作者把美国社会与历史和数据的关系作为一条主线,根据不同时代对数据的理解,通过具体的案例进行介绍。它不仅介绍了很多有趣的数学知识,更重要的是把一些非常好的想法渗透到你的内心。以下是本书中一些观点的摘录:
一个真正的信息社会首先是一个文明社会。(大数据,题记)
“大数据”的意义在于,人类能够“分析和使用”的数据越来越多。通过这些数据的交换、整合和分析,人类可以发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”、“大发展”。(大数据,P57)
美国虽然年轻,却有着深厚的相信和使用数据的传统。数据被视为科学的度量和知识的来源;没有数据,学术研究和政策制定都无法向前推进。(大数据,第61页)
数据收集和数据分析必须成为基层部门的文化和管理理念。(大数据,第82页)
数据是一种尊重事实、强调准确性、尊重理性和逻辑的文化。数据的缺乏是中国落后的重要原因;通过建设这种文化,中华文明的面貌将焕然一新。(数据顶部,题字)
对于一个国家来说,什么算什么不算,其实是一个政治问题。…要算一件事,必须有明确的界限。……首先,明确定义什么是“1”。(数据之首,P14)
无论是霍勒斯的发明,IBM的崛起,还是之一台商用计算机的出现,都离不开美国人口普查产生的庞大数据。......让后人惊叹不已.....一个政治决定,历经百年演变,将美国推向了信息技术的巅峰,引领世界进入了新的社会形态。(数据顶部,第110页)
面对复杂的利益冲突和政治压力,不用多说,让数据来竞争吧!(数据顶部,第142页)
一个国家的对外开放首先应该指向其内部……与对外开放相比,对内开放更为重要,它决定着一个国家的长远发展和命运。......对外开放不仅关系到公民的自由和权利,也是 *** 管理社会、调节市场、服务经济发展的有效手段。更重要的是,随着大数据时代的到来,数据将和传统的“人、钱、物”一样,成为重要的生产资料和创新资源。内部开放的程度将决定一个国家发展的力量和一个社会创新的活力。(数据顶部,第216页)
它是静态数据的历史,历史是动态数据。历史的碎片是免费的数据;历史的迷雾是模糊的数据;历史的盲点是缺失的数据。用数据构建的历史,因为细节精准,所以永远是活的。资料越丰富,后世的历史学家就越能再现当时的社会。(数据顶部,第336页)
国与国之间的竞争表面上是科技和经济的竞争,但归根结底是国民素质和文化的竞争。没有健康、理性、进步的文化,一个国家难以强大。这本书的努力就是要把数据这个科技符号变成中国的文化符号,把大数据这个高端精英的话题变成大众话题,让数据文化进入中国人的视野,融入中国人的意识和血液。(数据顶部,第338页)
我想当你读完这几段,你会渴望读这本书,但你也可能会想,这本书会不会充斥着无聊的数字,而我们很多人对这些数字自然是反感的。不要!书中告诉我们,美国统计局的人早在19世纪就开始设计各种各样的地图和图表,让你直观可感知地了解数据。下面的图是1870年美国的人口分布,职业分布,盲分析,纳税图,农作物分布图。它们和我们现在谈论的视觉化非常相似吗?说实话,我很难想象当年拍出这样画面的那群人。在没有电脑的年代是相当困难的。与之相对应的是,1870年的清朝还在为国内的财力感到迷茫。
多年来,中国在数据可视化方面落后于发达国家。书中特别提到一位中国地理学家陈正湘先生,他在用地图说话,用地图反映历史方面做出了巨大贡献。以下图片为陈先生绘制的中国历代诗人祖居图。唐宋至明清的变迁,反映了人口、经济、文化的变迁过程。另外,书中提到,上世纪60年代,联合国农业气象委员会等国际组织向中国索要蝗灾分布图。由于中国从来没有这样的地图,也没有现成的数据,个人花了8个月的时间从地方志中寻找蝗灾寺庙的分布,间接反映了蝗灾的分布。
书有26万字,但是我一口气看完了。可以说全程无尿,这也让我对数据研究的热情更加高涨。我在美国读书的时候,有一个非常强烈的感受,美国民众和社会习惯用数据说话,社会各个领域都有大量的开放数据。以医疗领域为例,美国疾控中心每年都会出版一本书《健康,美国》。2010年后将有电子版,全书可在美国CDC官网免费下载。然而,我国的健康白皮书每隔几年就会发表一次。更重要的是,内容的丰富性和细节性还有很大差距。
回到医学的角度,在医院层面,目前我们的数据管理和使用存在很多问题。本来随着电子病历的发展,理论上应用数据更加方便简单,但实际上变化不大,大量数据依然成为无声数据。比如我曾经在病案室搜索过“肺水肿”的诊断,看这个病的实际情况,理论上发病率不低。结果令人震惊,每年只有个位数的病例数。我分析了一些原因。
首先,整个节目结构不合理。我曾经和从事医疗数据公司的人聊过。他们真的说他们将要挖掘医疗数据。首先,他们不得不改变当前的电子病历系统,因为当前的系统无法直接导入到电子表格中,导致数据处理效率低下。例如,更好将病史中的吸烟史制成表格。吸烟的话点击“是”或“否”,然后点击“是”再点击多少年,每天抽多少支烟。导出数据非常方便。但是,这样改数据可能要花很多钱。公司的人告诉我,单个病至少需要8万人民币。但是,如果能有效的整理这些数据,好处可能远不止这些。更重要的是,数据抽取可以提供很多研究思路。
其次,临床医生也缺乏对数据的重视,在临床工作中填写诊断非常随意。比如我搜索“肺隐球菌病”时,病例数比我收集到的要少,很多诊断为“肺真菌病”,“慢阻肺”和“支气管扩张”的诊断混在一起。在日常工作中,医生马马虎虎,差不多得这种心态还是很常见的。同时,很多博士担心自己没有文章,不知道怎么做科研。如果能利用好临床数据,何必担心文章,但前提是数据有效、真实、完整。