主页 > K城生活 >Google拼了!为了做好手机的搜寻,聘百名语言学博士人工标

Google拼了!为了做好手机的搜寻,聘百名语言学博士人工标

作者: 时间:2020-06-07 171° K城生活
Google拼了!为了做好手机的搜寻,聘百名语言学博士人工标

搜寻:世界上最快的鸟是什幺?Google 会告诉你:游隼。根据 YouTube,游隼被记录下最高 389 km/h 的时速。

这的确是正确答案,但它并非来自于 Google 的资料库。当你输入这个问题的时候,Google 搜寻引擎找出了一个描述世界上五种最快鸟儿的 Youtube 影片。然后它只把最快的「一种」鸟儿的资讯提取出来,不提及另外四种。

这是 Google 搜寻最新的技术进展。为了回答这些问题,Google 需要藉助深度神经网路的技术。 作为 AI 技术之一,它不仅正在重塑 Google 搜寻引擎,还在革新 Google 全套人工智慧服务。其它网路大厂当然也受到波及,例如 Facebook 和微软。

深度神经网路是一种模式识别系统。它能通过分析大量资料,学习如何处理特定任务。这个例子中,它学会了怎幺在网路上的长篇文字中找出相关的一句或一段话,然后提取其中的要点呈现给你。

行动端 Google 搜寻刚刚上线这种「句子压缩演算法」。这个对人类来说很简单,但对传统的机器来说很难的任务,终于能被 AI 系统完成。这说明,深度学习正在促进自然语言理解这门艺术的发展。

为了训练神经网路演算法,Google 在全世界聘用了约百名语言学博士处理资料,进行人工筛选。 事实上,Google 的系统是从人类那里学习,怎幺在大段文字中提取有用资讯。而这过程需要一遍遍地重複——这是深度学习一个很大的限制。僱用大批语言学家不停地筛选资料既麻烦又极其昂贵,但短期内 Google 没有别的办法。

Google拼了!为了做好手机的搜寻,聘百名语言学博士人工标
“黄金数据”和“白银数据”

Google 也使用过期的新闻来训练 AI 问答系统。这使 AI 逐渐理解,新闻标题是如何对文章主体进行归纳的。但这并不意味着 Google 不需要一整群的语言学家了。他们不仅示範句子压缩,还要对语句的不同部分做标记,以帮助神经网路理解人类语言是如何工作的。David Orr 把 Google 语言学家团队处理的资料称为“黄金数据”,过期新闻则是“白银数据”。“白银数据”作用不小,因为它的体量很大。但价值最大的还是“黄金数据”,它们是 AI 训练的核心。语言学家团队的负责人 Linne Ha 透露,在可见的将来,语言学家队伍仍会继续扩大。

Google拼了!为了做好手机的搜寻,聘百名语言学博士人工标

这类需要人工辅助的 AI 学习便是“监督学习”,目前,神经网路都是这幺运作的。 有时候公司会把这个业务进行群众外包,有时候它会自发地进行。比方说,全世界的网民已经为数百万的猫咪照片添加了“猫咪”标籤,这会让神经网路学习识别猫咪变得很简单——训练资料已经处理好了。但很多情况下,研究人员们别无选择,只能自己一次次为资料添加标籤。

深度学习新创公司 Skymind 的创始人 Chris Nicholson 认为, 长远来看,人工标注资料是不可行的。 他说:「将来一定不会是这样。这是极度枯燥的工作。我想不出比这更无聊的 PhD 工作了。」

监督学习的缺陷远不止如此: 除非 Google 聘请所有语言的语言学家,否则这个系统无法在其他语言中运转。 现在,语言学家团队的工作横跨了 20 至 30 种语言。Google 必须在将来的某一天,採取更自动化的 AI 训练方式,即“无监督学习”。

到了那时,机器将能够从未经人工标注的资料中学习。网路上大量的数位资讯可以被直接用于神经网路学习。Google、Facebook 和 OpenAI 这样的大厂们已经开始这个领域的研究,但它的实际应用仍然非常遥远。现在,AI 学习仍然需要幕后的大批语言学家队伍。

上一篇:
下一篇:

申博太阳城_38365体育投注|权威生活门户网|分享生活常识大全|网站地图 菲律宾申博官网备用网址_金沙真金电玩城 菲律宾申博官网备用网址_Comag