传统的12306验证码已经不安全机器准确率几乎百分之百

发布时间：2018-12-23 14:37:36 所属栏目：创业来源：互联网

导读：4月13日，中国科学院科技战略咨询研究院与腾讯研究院在北京联合举办了2017人工智能：技术、伦理与法律研讨会。会议邀请了中国科学院科技战略咨询研究院院长潘教峰、腾讯研究院院长司晓、中国科学院学部科学规范与伦理研究与支撑中心李真真、复旦大学计算

　　先通过图像处理算法找出方块的目标位置，由于方块区位特征明显，很容易找到。之后设计一个带参数刚体运动的轨迹模拟模型，参数随机化之后模拟真人的轨迹拖动，从而实现破解。

　　12306图形验证码

　　除了拖拽验证码，据说难倒了很多购票者的12306的验证码其实也可以被破解。12306的验证码本质上在做图片中的对象识别，因此可以利用已经相当成熟的ImageNet相关算法，而ImageNet相关算法对图片中的实体识别已经到达很高的准确率。

　　谷歌图形验证码

　　此外，就连谷歌图片验证码也可以通过类似的方法被破解。谷歌图片验证码识别的主要难度在其类型多样：有时是选择图片中招牌部分，有时是框出图上的汽车。但是对于每一类验证都是有相应的破解方法，特别是对于基于图片中物体识别的验证码，可以用类似ImageNet的相关算法破解。

　　如今，几乎所有的主流的传统验证码都已经被破解，传统的验证方式早已不安全。

　　未来属于基于语言认知的智能验证码

　　出路何在?我的观点很明确，那就是基于语言认知的人机区分，也就是考验机器语言认知能力的智能验证码，这将会是未来一段时间内的重要选择。

　　这类验证码的基本思路是，让机器去读一段文本，然后回答问题。有点类似语文里面的阅读理解。比如说让人或机器读这么一段文本：“某人从复旦大学哲学系毕业，现在是郑州大学公共学院的导师”，然后问“这个人的在职单位是什么?”人或机器需要点击包含答案的文本片段才能通过验证。这类验证本质上是在考验人或机器的文本理解能力。

　　对于人而言极为简单，但是对于机器而言，这是很有难度的。比如刚才的例子，机器有可能回答复旦大学，也有可能回答郑州大学，但是我们都知道只有郑州大学是他的在职单位。机器要回答这个问题必须理解这段话讲的是什么，必须能够区分郑州大学和复旦大学一个是学习单位，一个是在职单位。

　　换言之，机器必须具备像我们人一样的认知能力，才能破解这样的验证码。但是很遗憾，机器毕竟没有像人一样受过十几年的教育，也就无从具备这样的文本理解能力。当前机器在认知能力方面，尤其在语言认知方面，至少在未来一段时间窗口内还难以企及人类水平，可能再过二十年、三十年或许能达到这个水平，但是这是二、三十年之后的事情了。

　　我们来看看当前人工智能到底有什么问题。当前人工智能的问题集中表现在理解常识的能力和推理能力非常有限。什么叫常识?几乎所有人都知道，以至于大家都不说的知识，叫常识。比如说太阳是从东边升起的，人是会走但是不会飞的，鱼是会游但是不会走的，鸡是有两条腿，兔子是有四条腿的，类似于这样的知识，就叫常识。

　　机器普遍缺乏这种常识，因为机器现在所学到的知识都是从文本里面学习来的，但是常识是人人都知道的，所以文本里不会被提及，那就意味着数据里不会存在，因此机器就无从学习。所以机器现在是普遍缺乏常识的。

　　我们再想想人为什么具有这种常识?人的常识是通过自身与世界的交互而产生的，我们从胚胎开始就在积累常识，就在感受时间的流逝，感受空间的存在。当你是一个很小的小朋友时你就知道调皮会挨打，所以你就在体验有因必有果。

　　时间感、空间感、因果感，都是通过身体经年累月的体验而形成的。人类要想在短短几十年时间内，把这种通过体验而得到的知识以一种填鸭式地方式灌输给机器是很困难的。

　　另外一方面是推理能力有限。我曾经问过很多在线机器人：“奥巴马是白人吗?”，很多机器的回答都不准确。事实上，这些机器背后的知乎库中都存有“奥巴马是黑人”这样的事实，但是从“奥巴马是黑人”推理出“奥巴马不是白人”，对机器来说就非常困难。

　　另一方面人类的推理是能够容忍很多异常的。比如说“有翅膀的鸟会飞”，大部分情况下是这样的，但是你也会发现一些特例，比如企鹅有翅膀不会飞，鸵鸟有翅膀也不会飞。机器只能胜任非黑即白的推理，异常容忍的推理对于机器而言仍很困难，但对于人而言确极为简单。

　　这里提及的难题目前有一个不成熟的说法，被统称为AI-Complete问题，也就是说这些问题要等到机器智能达到人类水平的时候才能解决。这明显是个悖论，但从这一说法可以看出这类问题有多难。

　　基于这些认识，我们提出并实现了一种基于知识图谱的验证码。我们有一个目前世界上最大的中文百科知识库CN-DBpedia。利用自有的知识库，自动生成自然语言问题，自动判定答案。所有的问题全是自动生成的，理论上可以生成数以亿计的问题。

　　同时我们平台可以自动判定答案，但是机器是不知道答案的，机器必须通过理解才能知道答案。我们的验证码还具有交互友好的特性，只要轻轻一点就能通过验证。

　　那么我们的系统是如何知道答案的呢?其实在CN-DBpedia里存储的是2亿多的结构化事实，比如(复旦大学，所在地，上海)，基于这些结构化事实，我们通过深度学习模型自动生成自然语言问题，也就是说我们的系统在提问时是已经知道答案的。

　　如果要破解我们的验证码需要以下几个技术储备：

　　识别图片里面的文字以获取问题

　　理解文本以及问题，进而生成答案

　　使用一个成熟的涵盖数亿关系知识库的QA系统

（编辑：核心网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

穗港科研团队首建真正	邓丽君引爆虚拟人板块
比亚迪成立电池公司，	自称新势力2.0，电动屋

传统的12306验证码已经不安全 机器准确率几乎百分之百

传统的12306验证码已经不安全机器准确率几乎百分之百