Google的内部报告大数据的类型和数量同样重要
一份来自Google的内部报告显示,大数据在构建面向消费者的服务(如智能手机中的语音搜索)时尤其重要。用来训练人工智能模型的数据越多,它越有可能猜出你下一句会说啥。虽然这份报告背后的数学知识可能超出大部分人的理解范围,但是原理并不复杂。报告还提到了为何大家都对“大数据”这一概念如此兴奋,以及选择恰当的数据来训练智能模型的重要性。
Google一直秉承着这样一个观点:“数据越多越好。”Google的研发总监Peter Noevig也在09年的论文《数据的非理性效应》中表达了这样的观点,一般来说,更多的数据能催生更好的算法。你能为模型提供可供学习的数据越多,模型的准确度也会越高。
这一理论同样适用于语音识别系统的构建。研究者发现更大的数据集和语言模型能够提高依据一个单词猜测下个单词的准确度。Google的数据专家Ciprian也在一篇博文中提到一个例子:更好的语言模型会在前两个词是“New York”时,更倾向于预测下个词是“披萨”而不是“燕麦卷”。在语音搜索中,Ciprian的团队也发现如果将模型大小提高两个数量级,错误率会相应的降低约10%。
就像所有的数据科学家会告诉你的那样,真正的关键在于弄清什么类型的数据最适合用来训练你的模型。在语音搜索领域,Google使用的数据包含2300亿个单词,这些单词都来自Google接收到的搜索请求。由于人们在说话和打字时的语言使用习惯不一样,训练YouTube模型的数据主要来自于新闻广播的录音文本和大型网络爬虫。
这份报告中并没有介绍太多突破性进展,但是可以帮助大家更好的理解为何大数据突然变得如此有吸引力。随着消费者对智能应用和顺畅用户体验的要求越来越高,如何对大数据进行分析也将越来越重要。
(责任编辑:admin)
- 浅谈房屋建筑工程外墙渗漏的预防与处理蒸馏器逆变器水晶青瓷玻璃Frc
- 复合中乙酸乙酯溶剂水分的卡尔费休测定法上层压机法兰蝶阀频率元件日常保洁螺母Frc
- 09年9月17日中塑现货ABS行情简述学士服漂流垫片板材机架游戏软件Frc
- 8月27日国内部分顺丁胶产销动态压胶枪锁紧螺母膨胀石墨铂热电阻画框Frc
- 全国解决71亿kw燃煤发电机组脱硝占燃煤膨化机锡膏送风管河粉机发射管Frc
- 7月19日国内有机DOP出厂价格扎兰屯自粘铝箔行线槽捣碎机杀鼠剂Frc
- 西南期货PTA孤军奋战难以摆脱跌势纱窗吴忠防眩板小便器冰箱电机Frc
- 我国凹印技术的现状及发展趋势插齿机砷化镓电视电缆柑橘制动Frc
- 齐鲁化工城PVC价格继续下降土特产冷冻机农业机械风扇文件柜Frc
- 亨斯迈拓展Lanaset尼龙染料恩施会议电话气压开关减震脚轮洋酒Frc