对于开发者而言,Stack Overflow和GitHub是最为熟悉不过的两大平台,这些平台充斥着大量开源项目信息和解决各类问题的代码片段。而就在近日,Palantir的Java开发人员,也是StackQflow(与编程相关的问题的问答网站)中排名最高的参与者之一Andreas Lundblad却承认,一段自己十年前写的代码,也是Stack Overflow上复制次数最多、传播范围最广的代码段均包含一个错误。
据悉,2018年发表的一篇学术论文[PDF]确定了在网站上发布的代码片段Lundblad是从StackOverflow提取的复制最多的Java代码,然后在开源项目中重复使用。
该代码段以人类可读格式(例如123.5 MB)打印了字节数(123,456,789字节)。学者发现,此代码已被复制并嵌入到6,000多个GitHub Java项目中,比其他任何StackOverflow Java代码段都多。
而在上周发布的博客文章中,Lundblad则承认,该代码存在缺陷,并且错误地将字节数转换为人类可读的格式。他表示,在学习了学术论文及其结果之后,已重新审视了代码。同时再次查看了该代码,并在其博客上发布了更正的版本。
STACKOVERFLOW代码有时包含安全性错误
据了解,尽管Lundblad的代码段是存在一个琐碎的转换错误,仅导致文件大小估计稍有不准确,但情况或许可能会更糟。例如,该代码可能包含安全漏洞。如果这样做的话,那么修复所有易受攻击的应用程序将花费数月甚至数年,使用户容易受到攻击。
事实上,即使普遍认为从StackOverflow复制粘贴代码是一个坏主意,但开发人员还是一直这样做。
2018年的研究论文显示了这种做法在Java生态系统中的普及程度,并揭示了复制流行的StackOverflow答案的绝大多数开发人员甚至都没有理会其来源。
从StackOverflow复制代码但没有署名的软件开发人员,实际上对其他编码人员隐藏了他们已经在项目内部引入未经审查的代码的情况。
这听起来像是一个过于警惕的声明,但在2019年10月发表的另一项学术研究项目[PDF]显示,StackOverflow代码段确实包含漏洞。该研究论文在过去十年中在StackOverflow上发布的69种最流行的C ++代码片段中发现了主要的安全漏洞。
研究人员透露,他们在总共2859个GitHub项目中发现了这69个易受攻击的代码片段,显示了一个错误的StackOverflow答案如何对整个开源应用生态系统造成破坏。