首页 > 资讯百科 > Taalas集群跑DeepSeek R1创速度记载

Taalas集群跑DeepSeek R1创速度记载

2026-02-21 17:02:17

2 月 21 日消息，科技媒体 Wccftech 昨日（2 月 20 日）发布博文，报道称 AI 芯片初创公司 Taalas 为解决大模型的延迟与成本难题，推出“硬连线”（Hard-wiring）技术，直接将 AI 模型固化在硅片中。

在 AI 算力竞争日益激烈的当下，延迟已成为制约智能体（Agentic）应用的核心瓶颈。不同于 Cerebras 或 Groq 试图通过集成 SRAM 来加速的路径，成立仅 2.5 年的初创公司 Taalas 选择了更为激进的 ASIC（专用集成电路）路线。

援引博文介绍，该公司研发出一种能将任意 AI 模型转化为定制硅片的平台，其核心逻辑在于“融合计算与存储”，直接将特定 LLM 的神经网络映射到硅片电路中，在 DRAM 级密度下完成所有计算。

这种设计彻底摒弃了 HBM（高带宽内存）、复杂封装及昂贵的散热系统，从物理层面消除了数据传输的“内存墙”障碍。

Taalas 已展示其首款产品 HC1，该芯片专为 meta 的 Llama 3.1 8B 模型设计。从技术规格来看，HC1 采用台积电 6nm 工艺制造，芯片面积高达 815 mm²，这一尺寸几乎与 NVIDIA 的 H100 相当。

Taalas 的在线聊天机器人演示在 EE Times 试用时达到了每秒 15,000+ tokens，但公司表示，在某些条件下内部测试已接近 17000 tokens（Taalas 承认其版本的 Llama3.1-8B 被“激进”量化）。

然而，巨大的芯片面积仅容纳了 80 亿参数的模型，这与当前万亿参数的前沿模型相比显得“容量有限”。这表明，为了实现极致的硬连线速度，Taalas 在单位面积的参数密度上做出了巨大妥协，这也是该技术路线面临的主要物理限制之一。

尽管参数密度不高，但 HC1 的性能表现极具颠覆性。官方数据显示，相比现有的高端算力基础设施，Taalas 方案的每秒 Token 生成数（TPS）提升了 10 倍，同时生产成本降低至 20 分之一。

为了解决单芯片容量不足的问题，Taalas 采用了集群化扩展策略。在针对 DeepSeek R1 模型的测试中，通过 30 芯片的集群配置，实现了高达 12000 TPS / User 的吞吐速度（据公司称，GPU 目前的技术约为每人每秒 200 个 tokens）。这一数据意味着在实时交互和复杂推理任务中，用户将获得近乎零延迟的体验。

TPS 是衡量大语言模型生成速度的关键指标，代表模型每秒能输出多少个文本单位（Token）。相当于打字员的打字速度，TPS 越高，AI 回复得越快，用户等待时间越短。

该媒体指出 Taalas 的技术路线虽然诱人，但商业模式面临独特挑战。由于模型权重被“硬连线”在硅片中，芯片一旦制造完成便无法更改模型参数。

这意味着客户必须为特定的模型版本（如 Llama 3.1 或 DeepSeek R1）购买专用硬件，一旦算法迭代，硬件可能面临淘汰风险。

Taalas集群跑DeepSeek