大数据的简单算法比小数据的复杂算法更有效

2013-09-23 08:16:31

   所以,数据多比少好,更多数据比算法系统更智能还要重要。那么,混乱呢?在班科和布里尔开始研究数据几年后,微软的最大竞争对手,谷歌,也开始更大规模地对这些问题进行探讨。谷歌用的是上万亿的语料库,而不是十亿的。谷歌做这类研究不是因为语法检查,而是为了解决翻译这个更棘手的难题。

  20世纪40年代,电脑由真空管制成,要占据整个房间这么大的空间。而机器翻译也只是计算机开发人员的一个想法。在冷战时期,美国掌握了大量关于苏联的各种资料,但缺少翻译这些资料的人手。所以,计算机翻译也成了亟须解决的问题。

  最初,计算机研发人员打算将语法规则和双语词典结合在一起。1954年,IBM以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,结果振奋人心。IBM701通过穿孔卡片读取了“Mipyeryedayemmislyiposryedstvomryechyi”这句话,并且将其译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上,一篇报道就有提到,这60句话翻译得很流畅。这个程序的指挥官利昂-多斯特尔特(LeonDostert)表示,他相信“在三五年后,机器翻译将会变得很成熟”。

  事实证明,计算机翻译最初的成功误导了人们。1966年,一群机器翻译的研究人员意识到,翻译比他们想象的更困难,他们不得不承认他们的失败。机器翻译不能只是让电脑熟悉常用规则,还必须教会电脑处理特殊的语言情况。毕竟,翻译不仅仅只是记忆和复述,也涉及选词,而明确地教会电脑这些非常不现实。法语中的“bonjour”就一定是“早上好”吗?有没有可能是“日安”、“你好”或者“喂”?事实上都有可能——这需要视情况而定。

  在20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比,他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能性,然后再决定某个词和词组在另一种语言中的对等词和词组。

  20世纪90年代,IBM的这个Candide项目花费了大概十年的时间,将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。由于是官方文件,翻译的标准就非常高。用那个时候的标准来看,数据量非常之庞大。统计机器学习从诞生之日起,就聪明地把翻译的挑战变成了一个数学问题,而这似乎很有效!计算机翻译在短时间内就提高了很多。然而,在这次飞跃之后,IBM公司尽管投入了很多资金,但取得的成效不大。最终,IBM公司停止了这个项目。

本文摘自《大数据时代》


   《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托-迈尔-舍恩伯格被誉为“大数据时代的预言家”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。维克托-尔耶-舍恩伯格在本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。
  维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。

 承诺与声明

兄弟财经是全球历史最悠久,信誉最好的外汇返佣代理。多年来兄弟财经兢兢业业,稳定发展,获得了全球各地投资者的青睐与信任。历经十余年的积淀,打造了我们在业内良好的品牌信誉。

本文所含内容及观点仅为一般信息,并无任何意图被视为买卖任何货币或差价合约的建议或请求。文中所含内容及观点均可能在不被通知的情况下更改。本文并未考 虑任何特定用户的特定投资目标、财务状况和需求。任何引用历史价格波动或价位水平的信息均基于我们的分析,并不表示或证明此类波动或价位水平有可能在未来 重新发生。本文所载信息之来源虽被认为可靠,但作者不保证它的准确性和完整性,同时作者也不对任何可能因参考本文内容及观点而产生的任何直接或间接的损失承担责任。

外汇和其他产品保证金交易存在高风险,不适合所有投资者。亏损可能超出您的账户注资。增大杠杆意味着增加风险。在决定交易外汇之前,您需仔细考虑您的财务目标、经验水平和风险承受能力。文中所含任何意见、新闻、研究、分析、报价或其他信息等都仅 作与本文所含主题相关的一般类信息.

同时, 兄弟财经不提供任何投资、法律或税务的建议。您需向合适的顾问征询所有关于投资、法律或税务方面的事宜。