Taalas集群跑DeepSeek R1创速度记载
2026-02-21 17:02:17
2 月 21 日消息,科技媒体 Wccftech 昨日(2 月 20 日)发布博文,报道称 AI 芯片初创公司 Taalas 为解决大模型的延迟与成本难题,推出“硬连线”(Hard-wiring)技术,直接将 AI 模型固化在硅片中。
在 AI 算力竞争日益激烈的当下,延迟已成为制约智能体(Agentic)应用的核心瓶颈。不同于 Cerebras 或 Groq 试图通过集成 SRAM 来加速的路径,成立仅 2.5 年的初创公司 Taalas 选择了更为激进的 ASIC(专用集成电路)路线。
援引博文介绍,该公司研发出一种能将任意 AI 模型转化为定制硅片的平台,其核心逻辑在于“融合计算与存储”,直接将特定 LLM 的神经网络映射到硅片电路中,在 DRAM 级密度下完成所有计算。
这种设计彻底摒弃了 HBM(高带宽内存)、复杂封装及昂贵的散热系统,从物理层面消除了数据传输的“内存墙”障碍。
Taalas 已展示其首款产品 HC1,该芯片专为 meta 的 Llama 3.1 8B 模型设计。从技术规格来看,HC1 采用台积电 6nm 工艺制造,芯片面积高达 815 mm²,这一尺寸几乎与 NVIDIA 的 H100 相当。
Taalas 的在线聊天机器人演示在 EE Times 试用时达到了每秒 15,000+ tokens,但公司表示,在某些条件下内部测试已接近 17000 tokens(Taalas 承认其版本的 Llama3.1-8B 被“激进”量化)。
然而,巨大的芯片面积仅容纳了 80 亿参数的模型,这与当前万亿参数的前沿模型相比显得“容量有限”。这表明,为了实现极致的硬连线速度,Taalas 在单位面积的参数密度上做出了巨大妥协,这也是该技术路线面临的主要物理限制之一。
尽管参数密度不高,但 HC1 的性能表现极具颠覆性。官方数据显示,相比现有的高端算力基础设施,Taalas 方案的每秒 Token 生成数(TPS)提升了 10 倍,同时生产成本降低至 20 分之一。
为了解决单芯片容量不足的问题,Taalas 采用了集群化扩展策略。在针对 DeepSeek R1 模型的测试中,通过 30 芯片的集群配置,实现了高达 12000 TPS / User 的吞吐速度(据公司称,GPU 目前的技术约为每人每秒 200 个 tokens)。这一数据意味着在实时交互和复杂推理任务中,用户将获得近乎零延迟的体验。
TPS 是衡量大语言模型生成速度的关键指标,代表模型每秒能输出多少个文本单位(Token)。相当于打字员的打字速度,TPS 越高,AI 回复得越快,用户等待时间越短。
该媒体指出 Taalas 的技术路线虽然诱人,但商业模式面临独特挑战。由于模型权重被“硬连线”在硅片中,芯片一旦制造完成便无法更改模型参数。
这意味着客户必须为特定的模型版本(如 Llama 3.1 或 DeepSeek R1)购买专用硬件,一旦算法迭代,硬件可能面临淘汰风险。
相关阅读
-
身体这两个部位乱推拿真的会要命,快停止科技前沿 2026-03-09 14:26:16
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08