技术深度解析
爱聆科技的 AI Note 生态系统建立在边缘侧 AI 处理的基础之上,这是其与依赖云端的竞争对手的关键区别。矩阵中的每款设备——录音卡、智能笔和可穿戴徽章——都包含一个专用的神经网络处理单元(NPU),能够运行轻量级 Transformer 模型,用于自动语音识别(ASR)、说话人分离和文本摘要。该 NPU 是内部设计的定制 ASIC,针对低功耗(主动录音时低于 100mW)和实时推理(延迟低于 200ms)进行了优化。这使得设备端转录无需任何云端往返,保护用户隐私并支持离线操作。
其架构遵循分层处理流水线。首先,语音活动检测(VAD)模块使用一个在 10,000 小时多样化声学环境上训练的小型卷积神经网络(CNN)过滤静音和背景噪声。接着,一个基于 OpenAI Whisper 架构剪枝版本的流式 ASR 模型——针对中英文代码切换数据进行了微调——将语音实时转换为文本。该模型已量化为 INT8 精度,将其内存占用从 1.5GB 降至 180MB,使其能够在设备的 2GB LPDDR4 RAM 上运行。转录后,一个轻量级的基于 BERT 的摘要生成器生成要点摘要,并提取关键主题、实体和行动项。整个流水线在 NPU 上以 3.2 TOPS(每秒万亿次操作)运行,主动使用期间系统总功耗为 1.2W。
对于多设备同步,该生态系统使用一种专有的低能耗网状协议(AILink),该协议运行在 Bluetooth 5.3 和 Wi-Fi 6 之上。设备可以无缝交接录音会话:例如,用户可以在一对一会议期间使用智能笔开始录音,然后在移动到会议室时在同一会话中继续使用徽章录音器。网状网络维护会话连续性并实时同步转录元数据。运行在 AWS Graviton 实例上的云端中心通过 REST API 提供额外的后处理——例如全文搜索、说话人标记以及与 Notion 和 Obsidian 等第三方工具的集成。
一个相关的开源项目是 `whisper.cpp` 仓库(目前在 GitHub 上拥有超过 45,000 颗星),它展示了 Whisper 模型在设备端高效推理的能力。爱聆的实现类似,但使用了定制的剪枝策略和专有的注意力机制以进一步降低延迟。另一个值得注意的仓库是 NVIDIA NeMo 团队的 `speaker-diarization`,爱聆团队通过用更高效的 Conformer 架构替换基于 LSTM 的编码器,将其适配用于边缘部署。
| 性能指标 | AI Note 卡(边缘) | 云端 ASR(例如 Azure Speech) | 智能手机应用(例如 Otter.ai) |
|---|---|---|---|
| 转录延迟(首个词) | 180ms | 450ms(含网络) | 320ms |
| 准确率(中文,清晰音频) | 96.2% | 97.1% | 94.8% |
| 准确率(英文,嘈杂环境) | 88.5% | 91.3% | 85.2% |
| 电池续航(连续录音) | 12 小时 | 不适用(取决于设备) | 4 小时(手机) |
| 隐私(数据保留在设备上) | 是 | 否 | 否(云端处理) |
| 离线能力 | 完全 | 无 | 部分(有限) |
数据要点: 边缘侧方案在准确率上牺牲了微小幅度(中文 0.9%,嘈杂英文 2.8%),但在延迟、电池续航和隐私方面获得了显著优势。对于重视实时反馈和数据安全的专业人士而言,这种权衡是可以接受的,并且通常是更优选择。
关键参与者与案例研究
爱聆科技是这里的主要参与者,但竞争格局包括几家值得注意的公司。在硬件方面,Sony 有其 ICD-TX 系列数字录音机,虽然轻薄但缺乏 AI 能力。Philips 提供 DVT 系列,具备基础语音转文字功能,但转录依赖云端且速度慢。在智能笔领域,Neo Smartpen 和 Livescribe 专注于数字化手写笔记,而非音频。在软件方面,Otter.ai 和 Fireflies.ai 提供基于云端的会议转录,但它们需要智能手机或笔记本电脑来运行,从而抵消了便携性优势。
爱聆的策略是结合两全其美:始终开启、随时待命的专用硬件,与本地运行的智能软件。例如,智能笔包含一个 360 度麦克风阵列和一个 6 轴 IMU 以检测书写动作,使其能够将音频时间戳与书面笔记关联起来。可穿戴徽章可夹在翻领上,并使用波束成形在拥挤的房间中隔离说话者的声音,这是智能手机应用在没有外部麦克风的情况下无法实现的功能。
| 产品 | 形态 | AI 功能 | 电池续航 | 价格 |
|---|---|---|---|---|
| AI Note 卡 | 信用卡大小,2.89mm 厚 | 实时转录、摘要、说话人分离 | 12 小时 | 待公布 |
| 智能笔 | 标准笔形,带 360° 麦克风阵列 | 音频-笔记同步、实时转录 | 8 小时 | 待公布 |
| 可穿戴徽章 | 夹式,带波束成形 | 会议优化、噪声抑制 | 10 小时 | 待公布 |