您好、欢迎来到现金彩票网!
当前位置:手机棋牌游戏平台 > 伪造算法 >

汪承昊:数学模型和算法两大风险——数据缺陷和知识的僭妄

发布时间:2019-05-25 19:00 来源:未知 编辑:admin

  汪承昊这篇文章对数学模型和算法的认知是很有见地的,历史数据的随机性和样本的不充分性,确实会给模型和算法的完整性、准确性和有效性打上一个很大的折扣。只有能够认识到这些问题,我们才可能培养对人工智能和算法的理性怀疑主义。

  其实对于数学模型和算法的问题,我一直想就 Cathy ONeil的专著《杀伤性数学武器:大数据如何威胁民主、加剧不平等》写一篇书评。大数据和算法决策在向我们社会的各个领域渗透,对于思考大数据和算法带来的一些问题诸如歧视、偏见、排斥等,这本书提供了一个很好的参考。

  第二,用易于获取的数据来进行代理建模很容易带来问题,这在大学排名、律所排名、老师评价等领域都是如此,引发了很多争议。

  第三,历史数据陷于过去。利用历史数据训练出来的模型,只会使未来带上过去的影子。如果我们希望未来和过去不一样,模型的输入就不仅仅是历史数据,还需要其他更多东西。

  第四,透明性是关键。但这里也可能存在一个认知鸿沟。对于深度学习算法,不透明是系统的一个本质属性,为了实现可解释性,可能需要探寻其他途径。

  第五,模型不仅仅测量现实,而且可能创造其自己的现实。虚假的或者有问题的算法评分作用在被评价对象身上,产生的新的输出,反过来反馈在被评价对象身上,会带来一个恶性的循环。

  那么,一个好的模型怎么样的呢?亚马逊的购物推荐系统就比较成功。比如,使用的数据是相关的,而且实时更新的;再比如,推荐系统是透明的,根据用户的购买历史进行推荐,如果推荐不准确,用户完全可以理解;此外,成功的标准是明确的,而且有反馈机制,如果推荐的书没有被用户购买,系统会不断得到反馈并改善。腾讯研究院高级研究员徐思彦曾经提过一个概念“人机回环”,就希望系统行为能够考虑人的因素,得到人类反馈,这样系统才能不断进化,产生期待的好的结果。期待模型一设计出来就能一本万利,是不切实际的,也是需要避免的,模型必须成为一个动态的系统,而非一个静态的存在。

  在科幻领域,《海伯利安》是与《银河帝国》齐名的史诗之作。仅就科技伦理来说,《海伯利安》也作出了重要贡献。

  故事梗概是:一位天才程序员编写了一段能够自我进化的程序,这个程序最终成为了与人类社会相抗衡的超级人工智能“内核”,一个出自造物的造物主。这个“内核”开发出了诡异的“十字形”,能够让人死而复生——十字形附着在人类寄主身上,储存了寄主的信息,当寄主死亡的时候,十字形吐丝生肉,使寄主复活。

  人类获得了永生不死的肉体,这看上去很好,然而人类为此付出了代价:带有十字形的人类,随着一次次的复活,不断丢失情感、智力甚至性征和繁殖能力,变成一群秃头、矮小、灰暗、愚蠢的动物,彻底沦为人工智能的附庸品,就像照片被反复压缩后,渐渐模糊一团。

  十字形的故事,犹如一段谶言:第一,人类有可能受到人工智能的反噬。第二,数据模型不完整或者算法歧视带来的决策缺陷难以解决。

  量化投资就是一个绝好的例子。量化投资依赖数据模型进行投资操作。它以数学模型替代主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,并减少投资者情绪波动的影响。通过全面、系统性的扫描捕捉错误定价、错误估值带来的机会,从而发现估值洼地,并通过买入低估资产、卖出高估资产而获利。更多数据解读:

  但是,量化投资的前提假设是“过去的规律是会继续有效的”。对此,经济学家塔勒布进行了无情的嘲讽,认为量化投资不过是随机致富的傻瓜,认为“他们一万次见过小布什总统,发现他每次都是神采奕奕、精力十足,于是乎得到一个结论——小布什先生是不死的”,这又被称为“黑天鹅效应”。比比皆是的黑天鹅效应,如金融危机、自然灾害、经济转型等等,都给一些量化投资机构带来灭顶之灾。实际上,黑天鹅效应并不是在说明特殊性与例外,而是戳穿了所谓“知识”中存在的僭妄。

  让我们回到问题本身。人类会不会受到人工智能的反噬?这是我们最担心的事,不过这种担心为时尚早。从1956年达特茅斯会议以来,数次有人宣称“真正的人工智能将在XX年内实现”,不过从目前看来,无论是AlphaGo还是Watson,短暂的兴奋过后,我们发现“机器自主意识”的可能性仍然微乎其微。知悉如此,难免怅然。

  然而为什么我们对“人工智能”视若洪水猛兽,却又心底期盼?想想看,那时的洪水猛兽,最终都成了饮料和食物啊。亿万年来,人类能够战胜洪水猛兽成为地球的主人,靠的是人类不断超越、不断进化的强大品质。智人之所以能够消灭尼安德特人,不是因为智人的智力、体力更优,而是因为智人具有更强的雄心和欲望。

  回首上个世纪,人类发明了能把自己毁灭数次的武器,但人类世界仍然以惊人的速度向前发展。人工智能即使有了超越人类的思维能力和速度,相信这一切仍然不会是人类被取代的理由。也许问题在于,当人类建立在物种优越感之上的自信被摧毁,会如何?不会如何。

  坚船利炮进入中国,从此结束了中国“循环往复”的孤独历史。黑人走进白人学校,成为美国多彩社会的重要组成部分。人工智能的逐步发展,一定会帮助人类本身实现更大的进步。更远的思虑在于,假如我们视“人工智能”为奇技淫巧,就对其进行限制和围剿,那么当人工智能被黑暗中的对手滥用时,极易使善良的国民陷于手足无措。在这个意义上,人工智能与核能具有同样的战略意义。

  数据模型不完整或者算法歧视带来的决策缺陷如何解决?个人以为,史上最佳的答案来自于被评为全球第二管理大师的詹姆斯·马奇,马奇先生著有一本注释与正文厚度相当的小书《经验的疆界》,非常深刻地诠释了人类智慧的来源。

  简而言之,试错、模仿、经验主义,都不是高等的智慧产生方式,真正的智慧,来自于对经验的谦虚:模型建构者必须认识到,历史的随机性与样本的不充足性。

  知识模型越通用,就越会包容噪音,带来高拟合性和重复性,但也带来了预测的不精确性。反之,模型越个别化,就越无法包容噪音,适用的场景越有限,提供有条件的精确性。甚至从终极意义上来说,我们不可能搞清楚任何的事情,只能做到在特定场景下尽可能接近真实,并且对于真理的可证伪性保持谦抑。

  回到比较基本的问题,已有数据本身即是经验的存在形式,历史数据的累积存在着随机性和样本有限性。任何希望通过数据来预测未来的作为,毋宁是菩提老祖对悟空所说的“壁里安柱”。但即使如此,仍然远胜于缺乏经验。关键不在于是否使用数据,关键在于人类能否认识到数据本身存在的不完整性和统计概率,通过自主学习来形成有效的决策。人与机器智能之间,既有合作,也有分界,在目前,机器负责支持“有没有”“全不全”,而人类负责解决“对不对”“好不好”。

  我们真正的敌人,是对已知的满足和对无知的无视。马奇与哈耶克的统一在于,经验可以向上归属为知识,经验需要被动态地使用,需要生长为智慧,而不是被教条地重复。经验是人类决策的依据,而不是人类行为的规则。僭妄的原因,不是因为过度依赖知识,而恰恰是因为对于知识没有思考。

  先从一个思想实验开始,古代将军出兵作战,将军们需要彼此配合,派信使互相沟通,约定进军,回撤的时间和地点。那么问题来了,如果信使叛变了,被敌军收买或者胁迫了,提供的是假情报,怎么办?

  那么,今天用情报学,密码学来说,这个可以做加密传输来解决,比如说,将军们出征前先彼此交换一个密码本,作为解密的关键文件,然后信使传递的是密文,信使也不知道真实内容,这样即使叛变或被收买,也无法生成合规的伪情报,很容易被发现。但我们这个条件再苛刻一些,假如连密码本都不可信了呢?将军们来自于天南地北,根本就没见过面,密码本都是信使传递的,这下怎么办?

  如果彻底解决这个问题,在不可信的网络环境里建立可信的链接和信息交互,实话说,没有绝对的方案,但工程学的好处是,如果我们把容忍度放宽一点点,从概率来保障,那么,可能问题就会简单一点。

  假设有多个信使,将军们通过多名信使彼此传递信息,如果我们认为,大部分信使都是可靠的,也就是说叛变的不占主要比例,当叛徒的存在低于某个特定比例时,那么就存在一种机制,可以找出叛徒,识别真实信息。

  今天这篇文章不敢原创,节选网上的部分文字给大家,会附有有相关文章的原文链接

  在分布式系统中,一致性(Consistency,早期也叫 Agreement)是指对于系统中的多个服务节点,给定一系列操作,在协议(往往通过某种共识算法)保障下,试图使得它们对处理结果达成某种程度的一致。

  如果分布式系统能实现“一致”,对外就可以呈现为一个功能正常的,且性能和稳定性都要好很多的“虚处理节点”。

  举个例子,某影视公司旗下有西单和中关村的两个电影院,都出售某电影票,票一共就一万张。那么,顾客到达某个电影院买票的时候,售票员该怎么决策是否该卖这张票,才能避免超售呢?当电影院个数更多的时候呢?

  注意:一致性并不代表结果正确与否,而是系统对外呈现的状态一致与否,例如,所有节点都达成失败状态也是一种一致。

  在实际的计算机集群系统(看似强大的计算机系统,很多地方都比人类世界要脆弱的多)中,存在如下的问题:

  这些思路大致都是可行的。实际上,这些方法背后的思想,将可能引发不一致的并行操作进行串行化,就是现在计算机系统里处理分布式一致性问题的基础思路和唯一秘诀。只是因为计算机系统比较傻,需要考虑得更全面一些;而人们又希望计算机系统能工作的更快更稳定,所以算法需要设计得再精巧一些。

  共识算法解决的是对某个提案(Proposal),大家达成一致意见的过程。提案的含义在分布式系统中十分宽泛,如多个事件发生的顺序、某个键对应的值、谁是领导……等等,可以认为任何需要达成一致的信息都是一个提案。

  注:实践中,一致性的结果往往还需要客户端的特殊支持,典型地通过访问足够多个服务节点来验证确保获取共识后结果。

  实际上,如果分布式系统中各个节点都能保证以十分强大的性能(瞬间响应、高吞吐)无故障的运行,则实现共识过程并不复杂,简单通过多播过程投票即可。

  很可惜的是,现实中这样“完美”的系统并不存在,如响应请求往往存在时延、网络会发生中断、节点会发生故障、甚至存在恶意节点故意要破坏系统。

  一般地,把故障(不响应)的情况称为“非拜占庭错误”,恶意响应的情况称为“拜占庭错误”(对应节点为拜占庭节点)。

  对于要能容忍拜占庭错误的情况,一般包括 PBFT 系列、PoW 系列算法等。从概率角度,PBFT 系列算法是确定的,一旦达成共识就不可逆转;而 PoW 系列算法则是不确定的,随着时间推移,被推翻的概率越来越小。

  搞学术的人都喜欢对问题先确定一个界限,那么,这个问题的最坏界限在哪里呢?很不幸,一般情况下,分布式系统的共识问题无解。

  当节点之间的通信网络自身不可靠情况下,很显然,无法确保实现共识。但好在,一个设计得当的网络可以在大概率上实现可靠的通信。

  然而,即便在网络通信可靠情况下,一个可扩展的分布式系统的共识问题的下限是无解。

  这个结论,被称为 FLP 不可能性 原理,可以看做分布式领域的“测不准原理”。

  FLP 不可能原理:在网络可靠,存在节点失效(即便只有一个)的最小化异步模型系统中,不存在一个可以解决一致性问题的确定性算法。

  提出该定理的论文是由 Fischer, Lynch 和 Patterson 三位作者于 1985 年发表,该论文后来获得了 Dijkstra(就是发明最短路径算法的那位)奖。

  FLP 不可能原理实际上告诉人们,不要浪费时间去为异步分布式系统设计在任意场景下都能实现共识的算法。

  科学告诉你什么是不可能的;工程则告诉你,付出一些代价,我可以把它变成可能。

  分布式计算系统不可能同时确保一致性(Consistency)、可用性(Availablity)和分区容忍性(Partition),设计中往往需要弱化对某个特性的保证。

  一致性(Consistency):任何操作应该都是原子的,发生在后面的事件能看到前面事件发生导致的结果,注意这里指的是强一致性;

  可用性(Availablity):在有限时间内,任何非失败节点都能应答请求;

  分区容忍性(Partition):网络可能发生分区,即节点之间的通信不可保障。

  比较直观地理解,当网络可能出现分区时候,系统是无法同时保证一致性和可用性的。要么,节点收到请求后因为没有得到其他人的确认就不应答,要么节点只能应答非一致的结果。

  好在大部分时候网络被认为是可靠的,因此系统可以提供一致可靠的服务;当网络不可靠时,系统要么牺牲掉一致性(大部分时候都是如此),要么牺牲掉可用性。

  ACID 原则描述了对分布式数据库的一致性需求,同时付出了可用性的代价。

  Paxos 问题是指分布式的系统中存在故障(fault),但不存在恶意(corrupt)节点场景(即可能消息丢失或重复,但无错误消息)下的共识达成(Consensus)问题。因为最早是 Leslie Lamport 用 Paxon 岛的故事模型来进行描述而命名。

  1990 年由 Leslie Lamport 提出的 Paxos 共识算法,在工程角度实现了一种最大化保障分布式系统一致性(存在极小的概率无法实现一致)的机制。Paxos 被广泛应用在 Chubby、ZooKeeper 这样的系统中,Leslie Lamport 因此获得了 2013 年度图灵奖。

  故事背景是古希腊 Paxon 岛上的多个法官在一个大厅内对一个议案进行表决,如何达成统一的结果。他们之间通过服务人员来传递纸条,但法官可能离开或进入大厅,服务人员可能偷懒去睡觉。

  Paxos 是第一个被证明的共识算法,其原理基于 两阶段提交 并进行扩展。

  作为现在共识算法设计的鼻祖,以最初论文的难懂(算法本身并不复杂)出名。算法中将节点分为三种类型:

  proposer:提出一个提案,等待大家批准为结案。往往是客户端担任该角色;

  learner:被告知结案结果,并与之统一,不参与投票过程。可能为客户端或服务端。

  并且,算法需要满足 safety 和 liveness 两方面的约束要求(实际上这两个基础属性是大部分分布式算法都该考虑的):

  在一次执行实例中,只批准(chosen)一个最终决议,意味着多数接受(accept)的结果能成为决议;

  决议总会产生,并且 learners 能获得被批准(chosen)的决议。

  基本过程包括 proposer 提出提案,先争取大多数 acceptor 的支持,超过一半支持时,则发送结案结果给所有人进行确认。一个潜在的问题是 proposer 在此过程中出现故障,可以通过超时机制来解决。极为凑巧的情况下,每次新的一轮提案的 proposer 都恰好故障,系统则永远无法达成一致(概率很小)。

  Leader 选举:每个 candidate 随机经过一定时间都会提出选举方案,最近阶段中得票最多者被选为 leader;

  同步 log:leader 会找到系统中 log 最新的记录,并强制所有的 follower 来刷新到这个记录;

  拜占庭问题更为广泛,讨论的是允许存在少数节点作恶(消息可能被伪造)场景下的一致性达成问题。拜占庭算法讨论的是最坏情况下的保障。

  又叫拜占庭将军(Byzantine Generals Problem)问题,是 Leslie Lamport 1982 年提出用来解释一致性问题的一个虚构模型。拜占庭是古代东罗马帝国的首都,由于地域宽广,守卫边境的多个将军(系统中的多个节点)需要通过信使来传递消息,达成某些一致的决定。但由于将军中可能存在叛徒(系统中节点出错),这些叛徒将努力向不同的将军发送不同的消息,试图会干扰一致性的达成。

  对于拜占庭问题来说,假如节点总数为 N,叛变将军数为 F,则当 时,问题才有解,即 Byzantine Fault Tolerant (BFT) 算法。

  拜占庭问题之所以难解,在于任何时候系统中都可能存在多个提案(因为提案成本很低),并且要完成最终的一致性确认过程十分困难,容易受干扰。但是一旦确认,即为最终确认。

  比特币的区块链网络在设计时提出了创新的 PoW(Proof of Work) 算法思路。一个是限制一段时间内整个网络中出现提案的个数(增加提案成本),另外一个是放宽对最终一致性确认的需求,约定好大家都确认并沿着已知最长的链进行拓宽。系统的最终确认是概率意义上的存在。这样,即便有人试图恶意破坏,也会付出很大的经济代价(付出超过系统一半的算力)。

  后来的各种 PoX 系列算法,也都是沿着这个思路进行改进,采用经济上的惩罚来制约破坏者。

  他发布的《区块链技术指南》这本书常有价值,机械工业出版社有线下出版,线上也有电子版本免费下载,有一定技术基础和对这个领域有兴趣的从业者,我强烈推荐深入阅读。而且线上版本有多个区块链开发架构安装和应用代码示例,对于快速启动区块链应用来说是有价值的。

  比特币在Block的生成过程中使用了POW机制,一个符合要求的Block Hash由N个前导零构成,零的个数取决于网络的难度值。要得到合理的Block Hash需要经过大量尝试计算,计算时间取决于机器的哈希运算速度。当某个节点提供出一个合理的Block Hash值,说明该节点确实经过了大量的尝试计算,当然,并不能得出计算次数的绝对值,因为寻找合理hash是一个概率事件。当节点拥有占全网n%的算力时,该节点即有n/100的概率找到Block Hash。

  POS:也称股权证明,类似于财产储存在银行,这种模式会根据你持有数字货币的量和时间,分配给你相应的利息。

  简单来说,就是一个根据你持有货币的量和时间,给你发利息的一个制度,在股权证明POS模式下,有一个名词叫币龄,每个币每天产生1币龄,比如你持有100个币,总共持有了30天,那么,此时你的币龄就为3000,这个时候,如果你发现了一个POS区块,你的币龄就会被清空为0。你每被清空365币龄,你将会从区块中获得0.05个币的利息(假定利息可理解为年利率5%),那么在这个案例中,利息 = 3000 * 5% / 365 = 0.41个币,这下就很有意思了,持币有利息。

  比特股的DPoS机制,中文名叫做股份授权证明机制(又称受托人机制),它的原理是让每一个持有比特股的人进行投票,由此产生101位代表 , 我们可以将其理解为101个超级节点或者矿池,而这101个超级节点彼此的权利是完全相等的。从某种角度来看,DPOS有点像是议会制度或人民代表大会制度。如果代表不能履行他们的职责(当轮到他们时,没能生成区块),他们会被除名,网络会选出新的超级节点来取代他们。DPOS的出现最主要还是因为矿机的产生,大量的算力在不了解也不关心比特币的人身上,类似演唱会的黄牛,大量囤票而丝毫不关心演唱会的内容。

  PBFT是一种状态机副本复制算法,即服务作为状态机进行建模,状态机在分布式系统的不同节点进行副本复制。每个状态机的副本都保存了服务的状态,同时也实现了服务的操作。将所有的副本组成的集合使用大写字母R表示,使用0到R-1的整数表示每一个副本。为了描述方便,假设R=3f+1,这里f是有可能失效的副本的最大个数。尽管可以存在多于3f+1个副本,但是额外的副本除了降低性能之外不能提高可靠性。

  以上引用文字在知乎,csdn多处可见,所以我不确定原创在哪里,疑似为如有作者声明,我愿意提供更准确的原文链接。

  1、共识算法是在复杂网络环境,或者社会环境里,取得决策一致性的保障算法,从工程角度来说,也许所有的共识算法都不够完美,但是其概率保障依然是让人们可信赖的。

  2、共识算法是人类智慧的结晶,多个图灵奖与此有关。而区块链技术的核心是共识算法。

  3、区块链解决的共识问题有诸多实际应用场景,并且能极大减少当前金融系统及其他社会系统中的信用成本。发币只是诸多应用场景之一。

  4、比特币基于POW共识算法,是共识算法中的一种,也正是因为这种共识算法需要计算力为证明,导致大量无谓的电费开销和能源消耗。但目前这种以计算力为证明的共识算法依然被认为是最公平的。

  不依赖于计算力和矿池的共识算法是存在的,理论上也是可行的,也有一些区块链货币正在尝试使用,但目前来说,想要取代比特币,可能还任重道远。

  5、经常有人问这个问题,为什么比特币这个现象如何突出,为什么人们会信赖一个虚拟货币,我以前解释过,重述一遍。从美国金融危机之后,强权政府失信,政府为货币背书的时代正在远去,这十年来,各国解决经济问题的手段,货币大幅度增发是常态,大幅度增发意味着什么?我们所持有的传统货币在高速贬值。那么算法共识,算法背书的时代正在来临,这是个大时代。区块链是一场革命,这一点毫无疑问,但我对比特币的未来一直心存疑虑,因为我觉得挖矿这个模式毕竟不是值得鼓励的。

  6、我从不反对持有比特币或其他区块链货币,我反对的是炒币,投机短线,并把炒币当作区块链学习,这和赌博没区别。有评论说他炒币几个月赚了多少倍来反驳我,其实只是因为赶上了一波行情而已,在这波行情里,只要手里拿着币,傻子都有好几倍。

  欢迎读者踊跃投喂,不过建议最大不要超过0.01BTC,好吧,其实也许多虑了。

http://lsm-systems.com/weizaosuanfa/16.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有