员工窃取前东家演算法还拿去 PyTorch 开源?MIT 教授控告 Facebook
▼
上周,两位麻省理工学院(MIT)教授设立的创业公司将 Facebook 告上法庭,指控 Facebook 侵犯他们的商业机密,还将核心演算法放在 GitHub 开源,开源的还恰好是深度学习框架 PyTorch 的关键程式库。
同时被告的还有神经魔法公司(NeuralMagic, Inc.)前员工亚历山大‧兹拉特斯基(Aleksandar Zlateski),现在是 Facebook 人工智慧研究院科学家。兹拉特斯基被指控违反保密和竞业禁止协定。
2020 年 3 月 4 日,美国麻省地区法院公布编号“第 20-10444 号民事诉讼”的起诉书,原告神经魔法公司叙述详细过程。
神经魔法公司创办于 2017 年,创始人为 MIT 电气工程与电脑科学系教授尼尔‧沙维特(Nir Shavit)和电脑科学与人工智慧实验室科学家亚历克斯‧马特维耶夫(Alex Matveev)。
核心技术之一是包在编译器里的演算法,演算法有很大潜力,允许复杂数学函数在 CPU 高效执行,不需使用 GPU 这类专门硬件;还允许研究科学家使用大得多的资料集,可用在医疗保健、癌症筛检、电子商务等方面,让人工智慧应用降低花费和硬件成本。
兹拉特斯基是 MIT 博士后时第一个正式员工加入神经魔法。2018 年 3 月,他成为技术总监,基本年薪为 16.5 万美元加期权。担任技术总监期间,兹拉特斯基有许可权取得公司所有商业机密、专有资讯和商业计划,关键是他能接触同时也协助编写编译器核心演算法的来源码。
2019 年 7 月,兹拉特斯基离开神经魔法加入 Facebook,并表示不会涉及以前参与的编译器工作。神经魔法也选择信任他,因为有保密协定,同时预期的工作内容也不涉及编译器。
结果证明这种信任是错的。不到 6 个月,2019 年 12 月,Facebook 向世界宣布并开源一个编译器,可透过调查揭示,包括和神经魔法相同的专有演算法。Facebook 甚至还在发行公告向兹拉特斯基表示感谢:“团队认可并高度赞赏兹拉特斯基对稀疏核心和统一程式码缓冲区的贡献。”
神经魔法究竟做了什么
尼尔‧沙维特教授在 MIT 任教 30 多年,主要兴趣是设计、达成和推理多处理器演算法技术,尤其是多核机器并发资料架构及控制行为的计算模型数学基础。
2016 年,沙维特开始新挑战,开发人工智慧系统重建大脑神经组织的贯通性,称为“撷取大脑的连线图”。
当他和马特维耶夫教授一起在 MIT 实验室测试时,在大量神经生物学资料的基础上,发现使用正确演算法,可只使用标准电脑在这些大型神经生物学资料集执行神经网络,不需要专门硬件,且能达到非凡的速度。这促成神经魔法公司两位教授准备将愿景变成现实并推向市场。
这意味着资料科学家可透过 CPU 执行神经网络和推理引擎,不必用 GPU 或 TPU 这类专属晶片,大大降低机器学习的硬件成本。另外,CPU 还能存取更多记忆体,不像专属硬件有记忆体限制。神经魔法的技术,仅仅用软件和演算法,就能代替高成本的 AI 硬件。
投资商也看到此技术的前景,公司进行过两轮融资,从 Comcast、NEA 等投资人累计募集到 2,000 万美元的风险投资。
官司之争
据起诉书称,2019 年 11 月,Facebook 在 Github 披露神经魔法的演算法。一个月后,在西雅图 TVM AI 开发者大会,Facebook 公布演算法开源,支援神经网络在 CPU 高效执行。
直到 2020 年 1 月,LinkedIn 文章才提醒到马特维耶夫教授,Facebook 盗用了神经魔法演算法。Facebook 把开源编译器称为“Sparse GEMM JIT”,在相关部分完成神经魔法的演算法。
Github 的修改历史也表明,最早发表者是 Facebook FBGEMM 套装软件负责人 Jongsoo Park,兹拉特斯基则列为第一个程式码审查人。而 FBGEMM(Facebook GEneral Matrix Multiplication,矩阵乘法)正是 PyTorch 框架的卷积库。
2020 年 1 月 22 日,神经魔法书面要求 Facebook 移除 Github 侵权的部分,Facebook 却拒绝接受。
神经魔法表示,兹拉特斯基违反了加入神经魔法时签署的保密协定,他和 Facebook 舍弃了要求 Github 消除资讯的权利。神经魔法要求获得 3 倍实际损害赔偿,以及律师费与禁止使用商业秘密的禁令。
神经魔法还在起诉书里称,目前只能看到 Github 开源部分的内容,而兹拉特斯基可能还会向 Facebook 披露更多资讯,在内部或未来开源版使用,这些持续披露会进一步损害神经魔法的市场和业务。
影响
对 Facebook 而言,PyTorch 是最受欢迎的深度学习框架。此次官司诉讼,会对未来造成多大影响还未可知。
2019 年 6 月,Facebook 曾涉及另一场诉讼,普林斯顿大学电脑科学家从名为 Planner 5D 的软件里,抓取超过 45,000 个档案,用来训练人工智慧演算法。这些资讯组成称为 SUNCG 的数据集。
因 Facebook 资助普林斯顿大学,SUNCG 资料集使用 Facebook 的虚拟实境公司 Oculus,并当作数据集资源办了一次资料竞赛。结果 Planner 5D 公司将 Facebook 和普林斯顿大学都告上法庭,最后数据集也撤掉。
这体现开源、AI 和学术涉及的复杂法律和伦理问题。开源很常见,特别是科学家和开发人员中间也可加快科学进步,但要此演算法和资料链条的每个人都同意才行。
对 Planner 5D 而言,对建立的模型和场景拥有唯一所有权,所有权能保证商业成功。对神经魔法公司也一样,本来 Facebook 是其专有演算法的潜在大客户,结果因员工挖角跳槽,不仅赔了演算法,还开源了公诸于世。
对刚创业的商业公司而言,这可能是灾难性事件,独有的演算法或资料都是 AI 时代的关键核心;对 Facebook 而言,虽然并没有变成私有,而是开源演算法或数据,但毕竟涉及智财权的源头及法律的冲突。
在机器学习社群,大家讨论热烈,众说纷纭。
Reddit 机器学习论坛网友 TSM 认为,此不涉及专利和版权,只是演算法为商业秘密共用。商业秘密应受到保护,可阻止大公司挖角小公司员工以窃取机密,如丰田曾花很多时间聘请福特的进阶员工,了解福特如何完成一些特殊的制造过程。
网友程式辣椒认为,目前至少有 20 家新创公司在做类似非 GPU 晶片稀释计算,只有演算法对公司而言不是好基础,除非有特殊的实践法,没有人能复制,否则投资价值不大。网友 hitaho 则说:“我会把程式码 fork 一份,先下载再说。”
(本文由 雷锋网 授权转载;首图来源:pixabay)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。