遗失的数据:《开源之迷》附录A

统计与寻求衡量,是我们探索世界、认识世界的重要方式,微观的star数、fork数固然重要,但是宏观上的开发者数量、企业采用也不可或缺,作为开源世界重要的依据,无奈由于纸质出版的滞后性,2020年的数据,现在看来已经显得过时,只能作为一份历史记录来回顾,希望这份整理对于理解开源的人们有所帮助。

Sat Feb 19, 2022 | 5800 Words | 大约需要阅读 12 分钟 | 作者: 开源之道 |

附录A:不同视角下的开源数据2020

繁荣:那些可描述的表象

确定性的寻求是寻求可靠的和平,是寻求一个没有危险、没有由动作所产生的恐惧阴影的对象。因为人们所不喜欢的不是不确定性的本身,而是由于不确定性使我们有陷入恶果的危险。

​ ———— 约翰·杜威《确定性的需求》

一切都是可以预测的,一切都是可以计算的,这是现代人的野心。也是现代繁荣的主要动力。随着信息革命的完成,这个越发的不可收拾,因为此时人类掌握了重要的进一步科学探索的材料:数据,而我们正处于数字化转型的新时代,万物皆数!

在列举完事件之后,或者经历了一场场的公共事件之后,一如有心的读者你,这些事件的背后,是否有更多的内容让我们了解,从而能够进一步的让人产生兴趣。

开源,因互联网而起,也是数字化的主要推手,其本身被大众所熟悉和认可,用事实说话,这是现代人的焦虑之一,想要说明开源的迷人魅力,那么我们需要回答以下宏观的问题:

  • 企业中使用开源的占比是多少?
  • 这个世界上有哪些地方对开源比较活跃?
  • 人们是否积极的讨论有关开源的一切?技术、文化、应用

换句话说,就是有哪些媒体、机构、组织对开源进行过分析、调查,进而转换成人们可以理解的话语来进行表述。

在本章接下来的内容,我们将就上述问题,进行细致的数据梳理,从不同的视角,不同的维度,尽可能的全面的将开源在现代产业中的占有描述清晰。

开源软件企业级占比:来自RedHat 和 Sonatype 的调查

企业几乎一致认为开源战略重要[1]

耳熟能详的RedHat,2019年以高达340亿美金的价格并入蓝色巨人IBM旗下,这件事轰动了整个产业界。以其足够的品牌和知名度,以及以开放式组织[2]闻名于世的口碑,足以说明其报告的可信度。

从2019年始,redhat著名布道师,《How Open Source Ate Software》[3]一书作者Haff, Gordon亲自执笔,访问来自世界各地共950家公司(具体地域分别美国400家、英国150家、拉丁美洲250家、APAC 150家)的IT高管,得出的结论:

95%的人认为企业级开源非常之重要!

开源组件和供应链占据企业大部分软件

或许你没有听说过Sonatype,但是你一定听说过Maven,著名的Apache 构建管理开源项目,Sonatype就是主要的贡献者和仓库服务提供者。旗下产品Nexus深入人心[4]。

Sonatype 每年会发布一份软件供应链的报告,截止到2020年,已经连续发布了6年,通过java、JavaScript、.net、Docker镜像等数据等分析获得数据,是开源企业级洞察必备的数据来源:

2020 年有超过 1.5 万亿个开源组件和容器下载请求

我们可以以一张Java组件的历年下载量图来展示这一强大的趋势:

(图片来源:sonatype 2020 年软件供应链调查)

参考

  1. https://www.redhat.com/en/enterprise-open-source-report/2020?intcmp=701f2000000tjyaAAA,最后访问时间:2021.1.12
  2. 《The Open Organization: Igniting Passion and Performance》,Jim Whitehurst,Harvard Business Review Press,2015-6-2
  3. 《How Open Source Ate Software:Understand the Open Source Movement and So Much More》,Haff, Gordon,Apress Press,2018
  4. https://www.sonatype.com/about/, 最后访问时间:2021.1.12
  5. https://blog.sonatype.com/2020-state-of-the-software-supply-chain-report,最后访问时间:2021.1.12

开源平台的崛起:GitHub

通过聚焦于开发者的切身体验,GitHub 毋宁说是更加关注开源的人,而不是开源的项目。

​ ———— Nadia Eghbal,《Working in Public:The Making and Maintenance of Open Source Software》

全球最大开发者聚集地

无论我们是否承认,GitHub 的流行度超过了我们的想象,有很多朋友说起开源,脑子里第一个冒出来的就是GitHub。是的,GitHub 在2019年被MicroSoft 以75亿美元的价格收购,它目前注册人数达到了5千6百万[1]。它某种程度上就是开源代码相关人员的社交站点,就分享和学习代码而言,GitHub 无疑就是程序员的Facebook。

而且,GitHub 保持乐观,认为将会在2025年使用GitHub的用户将达到一亿:

开源协作

根据GitHub的统计,在过去的一年里,总的提交数达到了19亿次。这个并行的力量,真正的体现出来了。更加重要的是这是来自全球各地不同的并行的力量:

群体更加的多样

不只是开发者青睐于GitHub,其他职业群体也在逐年增加:

参考

  1. https://octoverse.github.com/, 最后访问时间:2020.12.4

媒体调查报告

StackOverflow

来自知名问答社交平台 StackOverflow 在2020年的一份调查,来自全球65,000名开发者参与了,几乎涵盖了现在地球上所有的国家和地区。所有的数据均可下载[1]。

详细的数据,请读者去官网进行浏览,作者在这里为大家贴出一份可能是大家最关注的:

  • 开源开发者的工资如何?
  • 开源开发者们都喜欢用那些语言和工具。

工资最高的技术排名开源占尽优势

最受欢迎的技术均为开源

开源社年度报告

主要语言为汉语的IT 媒体,如CSDN、InfoQ、思否、开源中国等每年都对开源进行相应的报道,请读者自行访问它们的站点,这里就不再重复,但是有一个报告的内容,是必须要在这里提及一下的,那就是我们在嘉年华:开源大型会议 一章中谈到的中国开源年会(COSCon)背后的组织单位:开源社[2] ,该组织也每年都会发布一份关于开源的报告, 那么以下就是开源社发出的2020年度报告[3],笔者根据表现,摘选出重要的呈现给大家。

  • 开源参与者的主力依旧是 20-39 岁人群,相比去年比例仍在上升,而在开源社区的年龄分布中,20-30 岁人群占据了 64%,说明开发者的年龄仍在趋于年轻化;
  • 在 2020 年 COVID-19 这个大背景下,各行各业都不可避免受到了冲击和影响;82% 的人认为疫情对于参加开源社区的活动产生了影响,但也具有推动作用,11% 的人认为毫无影响,7% 的人认为疫情的负面影响大于正面影响;
  • 2020 年 9 月 9 日,中国首个开源软件基金会「开放原子开源基金会(OpenAtom Foundation)」官方正式对外发声,大家对此抱有多重期望:推广开源的理念,开源文化教育和社区建设,建立开源生态体系,对开源项目进行早期的孵化和扶持,帮助中国开源社区进行资源的整合和优化,并接轨国际开源社区。

更多内容,请下载:PDF 可打印版 [4]。

参考

  1. https://insights.stackoverflow.com/survey/2020#overview
  2. https://kaiyuanshe.cn/,最后访问时间:2021.2.8
  3. https://kaiyuanshe.cn/document/china-os-report-2020/, 最后访问时间:2021.2.8
  4. https://kaiyuanshe.cn/document/china-os-report-2020/2020%20%E4%B8%AD%E5%9B%BD%E5%BC%80%E6%BA%90%E5%B9%B4%E5%BA%A6%E6%8A%A5%E5%91%8A.pdf ,最后访问时间:2021.2.8

开源非营利基金会年度报告

在开源的世界里,毫无疑问,和现实世界“接轨”的开源非营利基金会是重要的力量,他们的发展可以说是开源的风向标了,一款开源项目是否具有厂商中立,拥有大量的安装量和使用量,才是最为实际的。

开源非营利基金会大大小小、林林总总,作者也无法一一兼顾,在此列出笔者认为非常关键的几个重要基金会的年度报告

Apache 软件基金会2020 年度报告

总览概括

Apache 软件基金会是目前世界上最大的开放源代码基金会,它管理着超过20亿+行的代码,这些代码价值超过2千亿美金,当然,这些代码用户可以付零元就可获得。

Apache 软件基金会是一个完全有志愿者组成的共同体,在当初建立的时候只有区区21位创始者,他们均是Apache HTTPD Server的开发者,发展到今天,已经拥有813名独立的成员,有206位项目管理委员,这些人成功的带来超过305个顶级项目的开发,贡献者则超过7700余人,Apache软件基金会以“apache 之道”,实现这些辉煌的成绩。

Apache 的项目是现代用户的重要部分,涉列计算机最终用户的方方面面,从笔记本到平板,无所不包。另外,Apache 软件项目也是撑起现代互联网的基石,在各行各业都有Apache 软件项目的身影,从管理超大规模数据,到执行数兆次操作,乃至存储数亿个对象。

另外,Apache 许可证 V2 是业界使用最为广泛的协议,其商业友好和宽松的特性,赢得了广大范围的认可。既能够做到让一家初创公司创造几亿美元的价值,也能帮助全球无数的用户受益。

开发和项目数据

  • 在过去的一年里增加了有超过8千万行代码,其价值60亿美金。
  • 源代码下载量达到了150TB+,不包括二进制
  • 超过2045个git 仓库,大小约250GB
  • 有12,413 位创建了 63,172 新的 issue,有 2,868 位关闭了 54,633 个issue。
  • 只要是连接到互联网的地方,都有访问Apache web站点的痕迹。
  • 每周有超过3千5百万的页面访问:apache.org
  • 在过去的一年里,有19,396 位作者,共发送了 2,137,560 封邮件,涉及 907,870 个主题
  • 在过去的一年里,有 2,892 位 Committers 总共提交了174,889次, 有60,132,710 行代码的变化
  • ASF 的贡献者和committer 是非常活跃的(如下图所示)

一个特别关注的点,就是过去十年之间,来自世界各地的贡献的变化,北美不再是唯一的,欧洲和亚太地区越来越多的贡献量:

最后关于整个Apache 软件基金会的项目优势,也就是技术栈的完整性关系,是非常值得关注的现象:

(图 )

大数据的关系所表明的技术栈和彼此之间错综复杂的关系,不仅能反映出现代数字化的趋势,也反映着只有开源才能解决多样性。

Linux 基金会 2020 年度报告:

Linux 基金会的发展是令人叹为观止的,使用业界的一句话准确的描述了:“Linux 基金会的崛起”

成立公共健康子基金会

2020年,新冠病毒肆虐全球,Linux 基金会并没有坐视不理,而且发起了公共健康基金会。

成立 OpenSSF 基金会

并发布了《开源软件数字供应链安全:经验教训和建议采用工具》白皮书:https://www.linuxfoundation.org/blog/the-security-of-the-open-source-software-digital-supply-chain-lessons-learned-and-tools-for-remediation/。

成立finops 基金会

致力于云成为常态消费的单位经济学。

发布《了解开源科技和美国出口管制》白皮书

该白皮书非常的及时,对于中国本土对开源的误解和担忧起到了稳定民心的作用,这个报告至关重要。赢得开源圈内一片好评。

发布洞察工具:LFX

逃出洞穴的人,都希望自己有站在宙斯山上的视角,开源圈的人也希望有一个“水晶球”:能够从全局的视野来看整个开源的全景。Linux 基金会做了这件事,而且顺应着我们这个数字化的时代,LF整合了如此之多的数据:

  • 超过十亿行的代码;
  • 有11520个开源代码仓库
  • 每周的增量在1千2百5十万行
  • 每周删除的代码有1千零8十万行
  • 有11233份 CLA 签署的文件
  • 19442 个贡献单位
  • 263499个漏洞被发现
  • 4677位学员加入
  • 830820 个 issue 被记录
  • 增值达到 772173 美金
  • 4百4十万的邮件通信
  • 项目构建达到970450次
  • 1百7十万的课程被浏览和认证完成
  • 78023位参与了开源相关活动
  • 2020年共有 26998次 开源活动
  • 8万9千5百6十次文档更新

基于此,LFX 开发了十多个工具,有效的利用数据的可视化来实现开源世界发生的一切,洞察开源:

  • Insight: 一个全局式的开源项目生态视图,从而对自己所参与的共同体有更加直接明了的认知。
  • 安全:提供自动扫描以检测潜在的漏洞和弱点,并在可能的情况下提出建议的修复程序,以帮助项目解决最重要的安全问题。
  • 个人仪表盘:是开源人士所有开源活动的自助服务中心。
  • EasyCLA: 让个人和公司更容易的签署贡献者许可协议(CLA)
  • 导师制:为下一代开发者提供导师和帮助。
  • …….

KubeCon 欧洲会议成绩斐然

不愧是最流行的技术:

CNCF 2020 年度报告:继续增长

作为最为炙手可热的云原生技术,被视为未来云计算主宰世界的主要技术趋势,作为Linux基金会下的云原生计算基金会(CNCF)发布了其年度报告,我们可以在此做个简单的摘要:

  • 托管了超过80个云原生架构的项目
  • 贡献者达110,000 位
  • 贡献者来自世界上超过177个国家
  • 贡献者所属组织达1000多家(公司、研究机构、高校等)

更加引人注目的是CNCF 的成员增长,自2016年创建以来,一直都是呈上升趋势:

作为世界第二大经济体的中国,在CNCF 的表现可谓是强劲,基金会的报告特别指出了这点:

  • 有11个云原生项目来自中国:BFE (Baidu), Chaos Mesh (PingCAP), ChubaoFS (JD.com), CNI-Genie (Huawei), Dragonfly (Alibaba), Harbor (VMware China), KubeEdge (Huawei), OpenKruise (Alibaba), OpenYurt (Alibaba), TiKV (PingCAP), and Volcano (Huawei).
  • HuaWei 和 PingCAP 分别以66,554 and 84,816 次提交,在贡献榜上分别排在第8和第6。
  • 四家铂金会员、6家黄金会员以及55家白银会员

以Kubernetes 为核心的云原生项目,已经是目前云计算厂商的主力,包括公有云和私有云,作为一个开源的项目,CNCF 所起到的作用无疑是关键的,也是决定未来走向的,无论是技术本身,还是商业格局。

参考

  1. https://apache.org/foundation/docs/FY2020AnnualReport.pdf,最后访问时间:2021.3.9
  2. https://www.cncf.io/blog/2020/12/29/2020-cncf-annual-report/, 最后访问时间:2021.1.16

资本青睐的统计

软件正在吞噬世界,开源正在吞噬软件。

—— —— JJ oss.capital 创始人

2020 是开源价值正在被资本市场所青睐,COSS[1]做了如下一个统计:

整体而言,基于开源项目的商业公司获得的投资还是非常可观的,尤其值得注意的是两家来自中国的公司:PingCAP 和 Zilliz ,分别以D轮2.7亿美元[2]和B轮4300万美元[3]惹人注目。

另外,本土的创投机构也将注意力集中在开源软件领域,如维护了一个获得融资的列表:[4]

【补遗】截止本书定稿之时,每周都有基于开源项目的商业公司融资的情况[5],开源终于被认可,还是被资本率先获得。

参考

  1. https://www.coss.community, 最后访问时间:2021.1.20
  2. https://pingcap.com/blog-cn/series-d-financing/,最后访问时间:2021.2.8
  3. https://36kr.com/p/964817541848841,最后访问时间:2021.2.8
  4. https://github.com/chenzhepeter/ChinaCOSS ,最后访问时间:2021.2.8
  5. https://www.coss.community/coss,最后访问时间:2021.3.24