网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

为什么数据整合很难？图灵奖得主迈克尔·斯通布雷克这样“解答”

2022-05-26 14:19:40　来源: 贵阳网

贵州举报

0

分享至

5月26日，2022中国国际大数据产业博览会开幕式在线上举办。2014图灵奖得主、世界知名数据库科学家迈克尔·斯通布雷克在开幕式上说，为什么数据整合很难，因为必然会遇到要集成多个数据源的情况。

迈克尔·斯通布雷克举出例子，他说，假设你的员工数据库设在巴黎，而我的员工数据库设在纽约，你有员工，我也有员工；你的员工拿的是定期薪水，我的员工拿的是计时计件工资，所以这两种数据库模式不一样；你的员工的薪水用欧元支付，而我的员工薪水用美元支付，货币单位也不一样，我付给员工的工资是税前总额以美元计，而你付给员工的薪水是税后净额以欧元计，而且包含午餐补贴……所以你得付出精力，把双方数据进行统一协调，然后还得想办法处理无效数据。

想象一下，这些数据中可能有10%的数据丢失或出错，最简单的例子是有很多人会输入-99，而这是空值，如果你在分析时把-99当成了真实数值，那么你肯定会得到错误的结果，所以必须清理数据，同时也必须清除重复数据。如果有一名员工部分时间在巴黎工作，部分时间在纽约工作，那么就必须删掉重复数据，避免重复计算。当然，其中没有任何捷径，得将数据进行模糊匹配。比如，我是在巴黎工作的斯通布雷克，而另一个人是在纽约上班的斯通布雷克，两者只有姓氏不一样，所有这样的混乱都必须解决，而这一过程很复杂，也很难，但如果不这么做，数据分析就没有意义，机器学习模型就会失效自然这一切也就丧失了价值意义。

（贵阳日报融媒体记者高春春）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

日本富士急乐园过山车，负45度倒挂直接冲下旋转网友：这跟进了滚筒洗衣机有啥差别

重庆视点 2024-12-20 16:20:55
1909 跟贴 1909
河北一中学的学生身体贴身体连成一排跑操手里还夹着一本书

火炼树 2024-12-20 23:47:13
9409 跟贴 9409

南京一刚开张面馆招牌上的字被铲除一群城管和市民围观

火炼树 2024-12-21 10:45:19
4809 跟贴 4809

32岁谢沁菲，已任市委常委

鲁中晨报 2024-12-21 11:23:07
238 跟贴 238
美国取消针对“叙利亚沙姆解放组织”领导人的悬赏金

央视新闻客户端 2024-12-21 09:58:31
3902 跟贴 3902

今年冬至将是128年来最早冬至

极目新闻 2024-12-21 09:16:46
2319 跟贴 2319

给学生吃狗食后续！镇政府回应，家长崩溃发声，不给看监控了

小人物看尽人间百态 2024-12-20 20:10:56
3387 跟贴 3387
北京17分逆转辽宁3连胜奥莫特26+5弗格45分

网易体育 2024-12-20 22:00:39
3179 跟贴 3179

天津河东区发生爆炸事故

天津族 2024-12-21 07:36:30
5 跟贴 5
一晚上可以卖几百万，如此暴利的行业，该有人管管了！

收藏大视界 2024-12-17 18:31:21
9 跟贴 9
人民日报评：物业费难收！我们不是交不起，而是不想交

笑熬浆糊111 2024-12-21 00:05:22
17 跟贴 17
房票大军，在郑州“抢房”？

中国新闻周刊 2024-12-21 10:59:25
9 跟贴 9
哈尔滨冰雪大世界开园，凌晨3点零下22℃有人裹棉被排队

鲁中晨报 2024-12-21 10:03:03
591 跟贴 591
媒体人：秦升收钱负责输球，结果他上半场被罚下了但球队没输

懂球帝 2024-12-20 16:58:35
1751 跟贴 1751
字节跳动、腾讯：采购了 460000 块 GPU

云头条 2024-12-20 23:27:11
6 跟贴 6
飞机上拍摄秦岭分隔“湿热”与“干冷”，“南北分界线”清晰可见

青梦白话 2024-12-20 15:30:20
1622 跟贴 1622
电销人员集体破防：现在人流行陌生电话拒接，接电话的寥寥无几！

猫小狸同学 2024-12-20 18:35:03
0 跟贴 0
深圳一男子被从工程师调岗为保安，月薪2300？负责人回应

鲁中晨报 2024-12-21 11:39:04
0 跟贴 0
2025考研今开考：388万人报名，连续两年下降

上观新闻 2024-12-21 07:24:09
1252 跟贴 1252
房企欠费400多万，业主拒缴物业费！杭州一小区物业不干了

鲁中晨报 2024-12-21 11:27:07
1 跟贴 1
调查｜俄罗斯商品馆，为何在今年遍地开花？

红星新闻 2024-12-21 13:44:10
0 跟贴 0
100位专家模拟MVP投票：约基奇827分领跑库里2分詹姆斯0分

罗说NBA 2024-12-21 06:21:28
0 跟贴 0
厂长去哪儿？特斯拉超级工厂厂长离职被“抢”

鲁中晨报 2024-12-21 11:03:04
0 跟贴 0
俄罗斯喀山一高层住宅楼被两架无人机击中

新京报 2024-12-21 15:00:05
0 跟贴 0
重庆体育馆塌方？假的，实为体育馆此前建设中场景

网易号社区管理员 2024-12-21 16:22:05
0 跟贴 0
梅西居首！足坛3位GOAT C罗无缘仅列第二档历史第7人

念洲 2024-12-21 08:49:35
0 跟贴 0
隔壁动静太大！上海女子崩溃：凌晨每隔1小时被吵醒

新闻坊 2024-12-21 07:25:07
0 跟贴 0

重磅！美国宣布取消中国J-1签证持有人回国居住两年限制！

重磅！美国宣布取消中国J-1签证持有人回国居住两年限制！

留学咖啡馆

2024-12-21 08:34:42

中国将建全球首座钍熔盐堆，1吨钍相当于350万吨的煤，可用2万年

中国将建全球首座钍熔盐堆，1吨钍相当于350万吨的煤，可用2万年

历史看阿敞

2024-12-21 15:38:04

娶了熟人的前妻是种什么体验呢？不敢面对，能躲尽量就躲一躲吧

娶了熟人的前妻是种什么体验呢？不敢面对，能躲尽量就躲一躲吧

美好客栈大掌柜

2024-12-21 00:10:03

突破7nm后，台积电工程师：没有梁孟松，芯片还会停留在28nm

突破7nm后，台积电工程师：没有梁孟松，芯片还会停留在28nm

智观科技

2024-12-20 22:02:12

三大消息：中美关系一夜变天？36人被当场逮捕！中国最新表态…

三大消息：中美关系一夜变天？36人被当场逮捕！中国最新表态…

魏家东

2024-12-19 08:25:20

“全球最好的降压药”进入我国医保，患者能节省多少药费？

“全球最好的降压药”进入我国医保，患者能节省多少药费？

小彭谈历史

2024-12-15 20:47:55

辽宁省委书记、省长会见李彦宏

政知新媒体

2024-12-21 07:48:23

辛芷蕾穿“无痕液体裤”出镜, 看到她双腿那刻，这谁顶得住啊

辛芷蕾穿“无痕液体裤”出镜, 看到她双腿那刻，这谁顶得住啊

联友忆史

2024-12-21 11:29:40

中国地震台网正式测定：12月20日22时35分在新疆巴音郭楞州尉犁县（北纬40.36度，东经84.08度）发生3.0级地震，震源深度18千米

中国地震台网正式测定：12月20日22时35分在新疆巴音郭楞州尉犁县（北纬40.36度，东经84.08度）发生3.0级地震，震源深度18千米

每日经济新闻

2024-12-20 23:06:07

今日气温小反弹，明日冷空气再发威！

今日气温小反弹，明日冷空气再发威！

上海徐汇

2024-12-20 07:55:02

媒体人：韦世豪肯定知道会得罪海量广州球迷，他这性格很欧范

媒体人：韦世豪肯定知道会得罪海量广州球迷，他这性格很欧范

直播吧

2024-12-20 20:30:47

为什么有的牙膏贵，有的牙膏却只要几块钱？告诉家人避开2种牙膏

为什么有的牙膏贵，有的牙膏却只要几块钱？告诉家人避开2种牙膏

老张话健康

2024-12-19 00:05:52

央视开播！30集公安大剧来袭，2025开年大剧，我熬夜也要追！

央视开播！30集公安大剧来袭，2025开年大剧，我熬夜也要追！

阿纂看事

2024-12-21 15:37:26

同年包揽双MVP有多牛？21世纪仅3人做到，已11年无人实现了

同年包揽双MVP有多牛？21世纪仅3人做到，已11年无人实现了

大西体育

2024-12-21 16:22:46

上海市政府近日发布一组人事任免信息

上海市政府近日发布一组人事任免信息

新民晚报

2024-12-20 20:03:08

叶珂又曝大雷！大肚子逛奢侈店，黄晓明假分手，诸多细节被扒出

叶珂又曝大雷！大肚子逛奢侈店，黄晓明假分手，诸多细节被扒出

郑丁嘉话

2024-12-21 11:46:15

白宫愤慨，很后悔芯片让中方钻了空子！

白宫愤慨，很后悔芯片让中方钻了空子！

小企鹅侃世界

2024-12-20 13:55:30

不可思议！网友称西安万象城一碗凉皮59元，满大街上都是8元钱…

不可思议！网友称西安万象城一碗凉皮59元，满大街上都是8元钱…

火山诗话

2024-12-19 12:35:01

纯度可达99.999%！我国这项技术取得重要突破

纯度可达99.999%！我国这项技术取得重要突破

环球网资讯

2024-12-20 19:25:21

德国节日市集汽车冲撞人群已致2死68伤：当地定性为恐袭，多方发声

德国节日市集汽车冲撞人群已致2死68伤：当地定性为恐袭，多方发声

澎湃新闻

2024-12-21 11:24:26

贵州贵阳本地资讯尽在“掌握”

23192文章数 10636关注度

往期回顾全部

科技要闻

OpenAI最强推理模型o3发布！但明年才能用

头条要闻

房票大军在郑州"抢房" 一楼盘被抢光：我们没房可卖了

头条要闻

房票大军在郑州"抢房" 一楼盘被抢光：我们没房可卖了

体育要闻

“他不再是那个数据刷子了”

娱乐要闻

叶柯现身酒店被偶遇心情超好小腹隆起孕肚明显

财经要闻

国潮褪去，李宁掉队！

汽车要闻

预售37.98万坦克500Hi4-Z将于1月1日上市

态度原创

时尚

手机

本地

家居

公开课

冬季就该穿长外套，这些搭配技巧要学会，轻松拥有好气质

手机要闻

Counterpoint：中国折叠屏手机市场增幅放缓，华为持续领跑

本地新闻

好吃潮州｜潮州腐乳饼，咸甜党都沦陷了

家居要闻

现代轻奢新中式的和谐交响

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版