小数据时代的随机采样,最少的数据获得最多的信息

2013-09-22 11:45:47

  直到最近,私人企业和个人才拥有了大规模收集和分类数据的能力。在过去,这是只有教会或者政府才能做到的。当然,在很多国家,教会和政府是等同的。有记载的、最早的计数发生在公元前8000年的,当时苏美尔的商人用黏土珠来记录出售的商品。大规模的计数则是政府的事情。数千年来,政府都试图通过收集信息来管理国民。

  以人口普查为例。据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都凯撒主导实施的人口普查,提出了“每个人都必须纳税”,这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒。1086年的《末日审判书》(TheDoomsdayBook)对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载,后来这本书用《圣经》中的《末日审判书》命名,因为每个人的生活都被赤裸裸地记载下来的过程就像接受“最后的审判”一样。

  然而,人口普查是一项耗资且费时的事情。国王威廉一世(KingWilliamI)在他发起的《末日审判书》完成之前就去世了。但是,除非放弃收集信息,否则在当时没有其他办法。尽管如此,当时收集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,意思就是推测、估算。

  三百多年前,一个名叫约翰-格朗特(JohnGraunt)的英国缝纫用品商提出了一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。

  虽然后来证实他能够得出正确的数据仅仅是因为运气好,但在当时他的方法大受欢迎。样本分析法一直都有较大的漏洞,因此无论是进行人口普查还是其他大数据类的任务,人们还是一直使用具体计数这种“野蛮”的方法。

  考虑到人口普查的复杂性以及耗时耗费的特点,政府极少进行普查。古罗马人在人口以万计数的时候每5年普查一次。美国宪法规定每10年进行一次人口普查,因为随着国家人口越来越多,只能以百万计数了。但是到19世纪为止,即使这样不频繁的人口普查依然很困难,因为数据变化的速度超过了人口普查局统计分析的能力。

本文摘自《大数据时代》


   《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托-迈尔-舍恩伯格被誉为“大数据时代的预言家”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。维克托-尔耶-舍恩伯格在本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
  维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。

 承诺与声明

兄弟财经是全球历史最悠久,信誉最好的外汇返佣代理。多年来兄弟财经兢兢业业,稳定发展,获得了全球各地投资者的青睐与信任。历经十余年的积淀,打造了我们在业内良好的品牌信誉。

本文所含内容及观点仅为一般信息,并无任何意图被视为买卖任何货币或差价合约的建议或请求。文中所含内容及观点均可能在不被通知的情况下更改。本文并未考 虑任何特定用户的特定投资目标、财务状况和需求。任何引用历史价格波动或价位水平的信息均基于我们的分析,并不表示或证明此类波动或价位水平有可能在未来 重新发生。本文所载信息之来源虽被认为可靠,但作者不保证它的准确性和完整性,同时作者也不对任何可能因参考本文内容及观点而产生的任何直接或间接的损失承担责任。

外汇和其他产品保证金交易存在高风险,不适合所有投资者。亏损可能超出您的账户注资。增大杠杆意味着增加风险。在决定交易外汇之前,您需仔细考虑您的财务目标、经验水平和风险承受能力。文中所含任何意见、新闻、研究、分析、报价或其他信息等都仅 作与本文所含主题相关的一般类信息.

同时, 兄弟财经不提供任何投资、法律或税务的建议。您需向合适的顾问征询所有关于投资、法律或税务方面的事宜。