独立自制 AI Pin?Sam Altman:单人就能成立独角兽公司的时代来了
▼
如果有台设备不到手掌大,能随时随地记录声音,并转成文字和大型语言模型交流,你会考虑入手吗? 甚至如果自己做成本还不到 100 美元。
英国首家案件取证调查平台Cado的CEO Adam C.H.公布影片,讲述他只用一块Coral AI微型开发板和搭配蓝牙模组,就做出语音采集器,Adam称之为“Adeus”,为西班牙文的告别之意,用在这设备,意思引申为“告别网络和监管”,指网络厂商无法透过设备采集使用者个资。
A completely open-source AI Wearable device like Avi’s Tab, Rewind’s pendant, and Humane’s Pin!
Not only is it open-source, where you can own your data and switch between foundation models, but you can actually set it up today, not in a few months (oh, and it’s cheaper!) pic.twitter.com/4eEDwYpg1K
— Adam C.H. (@adamcohenhillel) February 2, 2024
Adeus算力来自Coral AI微型开发板,上图可见有个镜头和麦克风,MCU(单片机)叫NXP i.MX RT1176,采ARM架构,Cortex-M4和Cortex-M7两种处理器。坦白说两款处理器都是Cortex系列的低阶款,算力不算高。
读者可能会觉得这种MCU能做什么?问这话代表你得到重点了。让我们聚焦那颗外观明显有别于其他,刻着“Coral”大Logo的晶片,这是Coral AI Edge TPU协作处理器,提供4TOPS(数据结构为int8)算力。TPU是Google提出的概念,全称是张量处理单元,专门深度学习和机器学习任务。
▲ Coral AI Edge TPU。
不过此TPU并非彼TPU,这叫“Edge TPU”,边缘TPU之意,相容性和性能都远不如TPU,但功耗低、体积小,当然每个神经网络模型对性能有不同要求,面对Adam C.H.装在Adeus里的开源模型,表现不算太差。
接下来的工作就简单了,Adam C.H.在网络找到开源人工智慧声音转文字软件,再把Adeus连到计算机,执行安装,就都完成了。如果想要,可再为开发板镜头安装开源人工智慧软件,如辨识脸部、物体等。看到这该懂了,现在做电子产品的逻辑是靠人工智慧,所有元件都为人工智慧服务,只要硬件算力到位,功能就也到位。
▲ Coral AI微型开发板。
逆向思考一下,如不用人工智慧,单还原“记录声音,转成文字”都非常费劲,首先需要采集声音模组,通常是麦克风,但麦克风收音是模拟讯号,所以要将讯号经过处理如滤波、放大等,以确保品质和适应性,且每步骤都需要一颗晶片。
重要的是将类比讯号转成数位讯号,以便晶片处理。接下来是处理数位讯号,如降噪、特征提取等,以准备输入语音辨识引擎。让数位讯号经语音辨识引擎后,将转录文字输出到合适存储设备或通讯介面发送。
这样就会发现“原来人工智慧省了这么多事!”且成本100美元还算偏高,所以Adam C.H.将来会用Raspberry Pi Zero这块板子制作Adeus。
▲ Raspberry Pi Zero。
无独有偶,影音聊天软件Squad的CTO Ethan Sutin也有类似想法,不过他想要的是随时随地和大语言模型交流,于是他用苹果M1晶片搭配OpenAI的Whisper技术,做出能放在口袋里的Chat GPT3.5。
Whisper是自动语音辨识(ASR)和语音翻译的预训练模型,理论基础来自OpenAI的Alec Radford等人论文〈Robust Speech Recognition via Large-Scale Weak Supervision〉(透过大规模弱监督实现强健性语音辨识)。训练近70万小时的标注过数据,Whisper模型展现出许多资料库和领域无需微调即可有效泛化的强大能力。
这套设备没有开关,所以怎么启动Whisper也需要人工智慧帮忙。Ethan是用Silero,是声音活动检测(VAD),选择它原因在Silero的模型JIT,仅需1Mb大小,便携设备最缺少的就是容量。
Ethan的方法比Adam C.H.还简单,原理是用Silero辨识是否有声音传入麦克风,再用Whisper模型将声音转成文字。用手机将文字输入大语言模型,最后得到大语言模型回馈,实现随时随地与大语言模型交流。本质上讲,他也是用人工智慧做硬件,苹果M1晶片价格约40美元,换句话说,这套方案比Coral AI还便宜不少。
OpenAI CEO山姆‧奥特曼说过,现在已出现仅一位员工就市值10亿美元的公司,核心竞争力就是人工智慧。
未来尤其是智慧穿戴,极有可能变成要什么功能,就准备多少计算资源,如上述提到的两台设备,选用树莓派和苹果M1,就是两者记忆体、显存、算力都满足需求。通常情况,GPU记忆体主要存储模型参数、计算中间结果和模型最佳化,系统记忆体存储训练数据、模型参数及运行数据。训练大型深度学习模型时,确保两者记忆体够大以容纳数据和模型参数都很重要。
这些发明家的本质,并不是掌握多精湛的技术,而是巧妙将人工智慧融进硬件。将来技术持续进步创新,人类有望迎接智慧设备制作成本大大降低的时代,各类感测器、微型处理器及人工智慧元件将更容易取得且价格亲民,使手工爱好者乃至普通大众都能以低廉成本亲手制作功能丰富的智慧硬件。而开源社群的支持与共享经济发展,制作智慧设备的软件资源和学程也更触手可及,降低进入门槛。
(本文由 品玩 授权转载;首图来源:Adam C.H.)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。