网易首页 > 网易号 > 正文 申请入驻

微软工程师介绍了Git中一个会导致代码库膨胀的缺陷,修复方案即将推出

0
分享至


作者 | Tim Anderson

译者 | 平川

策划 | Tina

本文最初发布于 DEV CLASS。


Git 计算同一文件不同版本差异的方法存在缺陷,可能会使代码库膨胀数倍,导致性能问题并消耗过多的存储空间。

微软高级工程师 Jonathan Creamer发文 介绍了其团队使用的一个非常大的 JavaScript Git 存储库,一个单体库(一个存储库,存储多个相关的项目)。该库的每月活跃用户数超过 1000 人,代码行数约为 2000 万行。根据 Creamer 的报告,克隆这个存储库消耗了超乎想象的 178GB 磁盘空间。

该团队咨询了 Git 贡献者 Derrick Stolee(曾在 GitHub 工作,现为微软首席软件工程师)。他发现,在比较两个文件名是常用名的文件(本例中为 CHANGELOG.md)时,Git 实际上是在比较来自不同软件包的文件,因此每次提交都会发现很大的差异。

Stolee 向 Git 提交了一个 Pull 请求,添加了他所谓的 “path walk API”,使 Git 能够按路径对对象进行分组,“完全避免了文件名的哈希碰撞”。Creamer 使用新增的-path-walk参数,将git repack命令应用于这个大型存储库,结果库的大小减小到了 5GB。

在 Linux 内核邮件列表上,Stolee 也 发了 关于这个问题的帖子,称 “其主要发现是当前的文件名哈希算法只考虑了路径名的最后 16 个字符,在这样一个范围内自然会发生一些碰撞”。

在另一篇文章中,Stolee 指出:“在我查看的存储库中,按磁盘大小排序的前 100 个文件路径有一个明显的模式:其中 99 个是 CHANGELOG.json 和 CHANGELOG.md 文件...... 本应是一组微不足道的增量,却膨胀到了 20-60MB” 。

Stolee 还举了其他一些存储库的例子,用于说明新选项大大减少了它们所需的存储空间,其中一个存储库占用的存储空间从 130049MB 减少到了 4432MB。

Git 存储库过大的后果不仅是占用过大的磁盘空间,而且还会导致 Git 运行缓慢,有时甚至会完全失败,这取决于延迟和可用带宽。

虽然新选项确实可以显著节省空间,但这些例子都是大型存储库,有很多潜在的文件名冲突。典型的 Git 存储库无法以同样的方式受益。尽管如此,开发者们还是很希望在 Git 的发行版本中看到这些新功能。

https://devclass.com/2024/10/29/microsoft-engineer-describes-a-flaw-in-git-that-can-hugely-bloat-repositories-fix-is-on-the-way/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

2024 年收官之作:12 月 13 日 -14 日,AICon 全球人工智能开发与应用大会将在北京举办。从 RAG、Agent、多模态模型、AI Native 开发、具身智能,到 AI 智驾、性能优化与资源统筹等大热的 AI 大模型话题,60+ 资深专家共聚一堂,深度剖析相关落地实践案例,共话前沿技术趋势。大会火热报名中,详情可联系票务经理 13269078023 咨询。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王健林继续出售境外资产!1.6亿英镑卖掉英国游艇制造商,11年前3.2亿英镑购入

王健林继续出售境外资产!1.6亿英镑卖掉英国游艇制造商,11年前3.2亿英镑购入

澎湃新闻
2024-11-01 16:26:35
广东一企业遭逐利性执法,1600名河南警察远洋捕捞?真相不简单

广东一企业遭逐利性执法,1600名河南警察远洋捕捞?真相不简单

毒哥的毒鸡汤
2024-11-01 12:14:07
中国留学生伪造身份投美国大选,“露馅” 被捕,但选票无法撤回

中国留学生伪造身份投美国大选,“露馅” 被捕,但选票无法撤回

译言
2024-10-31 20:13:47
“特朗普交易”气数已尽?马斯克:若特朗普胜,他削减2万亿美元

“特朗普交易”气数已尽?马斯克:若特朗普胜,他削减2万亿美元

魏家东
2024-11-01 13:18:22
深圳华强北一公交车与出租车发生碰撞,无人员伤亡

深圳华强北一公交车与出租车发生碰撞,无人员伤亡

南方都市报
2024-11-01 20:22:11
郑爽美国和朋友聚餐,陪异性喝酒日子潇洒,男方玩手机态度冷漠

郑爽美国和朋友聚餐,陪异性喝酒日子潇洒,男方玩手机态度冷漠

180°视角
2024-10-31 16:20:27
刘晓庆新语言更炸裂!喊男友删“吓人”视频,疑拍私密视频还吃药

刘晓庆新语言更炸裂!喊男友删“吓人”视频,疑拍私密视频还吃药

古希腊掌管月桂的神
2024-11-01 12:47:51
动手!伊朗率先出击,大批导弹射向以色列,外媒:或成三战导火索

动手!伊朗率先出击,大批导弹射向以色列,外媒:或成三战导火索

小lu侃侃而谈
2024-11-01 21:38:45
乌克兰打不动了,主动希望和谈,列出的唯一条件,被俄方一口否决

乌克兰打不动了,主动希望和谈,列出的唯一条件,被俄方一口否决

空天力量
2024-11-01 13:41:23
消息称:下周将出台10万亿财政刺激计划,其中6成用于降低地方债

消息称:下周将出台10万亿财政刺激计划,其中6成用于降低地方债

互联网大观
2024-11-01 10:07:31
白岩松:一个男人最大的不幸,并非贫穷,而是年老之后妻离子散

白岩松:一个男人最大的不幸,并非贫穷,而是年老之后妻离子散

清风拂心
2024-11-01 09:18:55
虾皮公司年薪百万员工自曝不当行为:找小姐寻求刺激,我是败类,我是垃圾

虾皮公司年薪百万员工自曝不当行为:找小姐寻求刺激,我是败类,我是垃圾

互联网大观
2024-11-01 17:16:51
国乒最新战报!张本美和终结者翻身,第3局11-9,打赢中日大战?

国乒最新战报!张本美和终结者翻身,第3局11-9,打赢中日大战?

刘姚尧的文字城堡
2024-11-01 17:33:42
悲歌壮怀,淞沪会战国军齐赴上海,以下省参战部队几乎全部战死

悲歌壮怀,淞沪会战国军齐赴上海,以下省参战部队几乎全部战死

史政先锋
2024-11-01 15:34:13
中国男篮18人集训名单出炉:张宁首次入选 郭士强选人标准严谨

中国男篮18人集训名单出炉:张宁首次入选 郭士强选人标准严谨

颜小白的篮球梦
2024-11-01 18:31:41
俄军10月战损创历史之最,单月战死40500人

俄军10月战损创历史之最,单月战死40500人

史政先锋
2024-11-01 15:00:16
女子15万工资未收到9年后才发现!网友:晚发一小时我就发现了

女子15万工资未收到9年后才发现!网友:晚发一小时我就发现了

极目新闻
2024-11-01 17:06:28
台媒:每名台湾民众平均负债27.4万元,创历史新高

台媒:每名台湾民众平均负债27.4万元,创历史新高

参考消息
2024-10-31 14:07:06
女教师在家看电视时去世,2年后儿子才发现,电视还在放

女教师在家看电视时去世,2年后儿子才发现,电视还在放

青丝人生
2024-10-31 21:57:00
几十个登山者擅闯别墅泳池洗鞋,主办方“菜刀”言论被质疑

几十个登山者擅闯别墅泳池洗鞋,主办方“菜刀”言论被质疑

上游新闻
2024-11-01 12:24:14
2024-11-01 23:32:49
InfoQ
InfoQ
有内容的技术社区媒体
10322文章数 50855关注度
往期回顾 全部

科技要闻

比亚迪业绩新高,印证了丰田模式的正确性

头条要闻

男子为骗取790万保险金让父亲溺亡:家中独子 从小受宠

头条要闻

男子为骗取790万保险金让父亲溺亡:家中独子 从小受宠

体育要闻

WTA年终总决赛8人合影:郑钦文与斯瓦泰克C位

娱乐要闻

在这里看见了最具象的女性困境

财经要闻

高位套现10亿!合肥国资狙击游资?

汽车要闻

新君越也打出一口价 15.99万2.0T+9AT+大空间

态度原创

游戏
艺术
旅游
家居
公开课

还能发现新内容?《巫师3》设计师称其已尘封近10年

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

旅游要闻

快来耍!安岳4个石窟将向全国游客免费开放

家居要闻

摩登现代氛围 用色块勾勒空间

公开课

AI如何揭开大自然和宇宙的奥秘

无障碍浏览 进入关怀版