当前位置: 主页 > 站长学院 > 策划推广 >

1亿人的举手之劳

时间:2016-04-18 19:27来源:ChinaZ 作者:雷锋网
如何在王珞丹里面找出白百合?如何在春哥丛中发现姚明?也许你曾被12306那些神奇的验证码所折磨,也许你曾看着那些被折磨的家伙而心中窃喜。无论怎样的搞怪和奇葩,它们存在的根本目的其实是保护多数人的利益,维护一个正常的网络环境。论坛上留言,社交网站
  如何在王珞丹里面找出白百合?如何在春哥丛中发现姚明?也许你曾被12306那些神奇的验证码所折磨,也许你曾看着那些被折磨的家伙而心中窃喜。无论怎样的搞怪和奇葩,它们存在的根本目的其实是保护多数人的利益,维护一个正常的网络环境。论坛上留言,社交网站里注册账号,或者直接在网上买一张火车票……验证码随处可见,在一定程度上阻挡了恶意软件的肆虐。那么,最初的验证码又是什么样子呢? CAPTCHA 早在2000年,卡内基梅隆大学的Luis von Ahn发明了一种工具,以抵制网络上的不良软件程序。假如你要在线购买车票,那么你需要过目一组扭曲的字母,并输入正确内容。这样,系统可以将你判定为人类,而非机器程序。这就是所谓的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。 然而,随着恶意软件的进步,验证码也跟着提升了难度,这使人们在辨识图案这件事上要花费更多的精力。偶尔,也会出现些令人尴尬的情形。据说Yahoo曾收到一条求救信息,询问系统出现了“W A I T”字样,可是他等了20分钟却没有任何反应。 如果说这是一场介于网站和恶意程序/用户之间的竞争,那么最大的受害者是普通用户。据Google统计,每天,地球人至少要填写2亿个验证码。平均来讲,人们搞定一个验证码需要10秒的时间。往往我们还会因为看不清楚而不得不换一个新的来输入。按照这些数据计算,人类每天在验证码上就浪费了50多万个小时。这实在是一件令人沮丧的事。 两个验证码 这样大数量级的时间浪费问题再一次激发了Luis von Ahn,他开始思考,是否有什么方法可以把这些碎片时间利用起来,哪怕仅仅是那短暂的10秒。面对如此奇妙的设想,他居然找到了答案。 如果你曾经填写过类似下面形式的验证码,那么恭喜你,尽管你可能并不知情,但实际上你在做着一件很有意义的事情——为旧书电子化。 解决这一问题的传统做法是直接扫描书页,然后由计算机来辨认图片中的文字。这就是所谓的光学字符识别 (OCR)。然而这一技术并没有我们以为的那样理想,对于一本50年前的旧书,计算机可正确辨识的文字甚至达不到30%。我们所看到的那些扭曲怪词正是出自这样的旧书。当然,这些词汇变得扭曲只是为了抵抗那些恶意程序。 问题来了,如何判断人们输入的词正确与否呢?上图中出现的双词形式正是Von Ahn给出的解决方法。对于从旧书中提取出来的陌生词语,计算机并不知道答案,所以也无法判断电脑前的真人输入的是否正确。但是系统可以多给出一个词,这个词系统是知道其正确文字内容的。输入验证码的用户并不知道哪个是哪个的,只是顺其自然地把两个词都填上。如果电脑知道正确答案的那个词我们输入对了,那么系统会判定用户是真人,从而推断另一个输入的词也是正确的。当然,这样一次判断是不够的。通过重复这一过程,如果还有 (比如) 10个真人都输入了相同的内容,那么系统才会认为这个未知词语真正得到了数字化。
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
最新评论 查看所有评论
发表评论 查看所有评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
发布者资料
网络整理 查看详细资料 发送留言 加为好友 用户等级:注册会员 注册时间:2014-01-11 18:01 最后登录:2016-09-12 15:09