Taalas“硬连线”手艺打破:集群计划助力DeepSeek R1完成近乎零延迟交互
2026-02-21 16:20:14
在人工智能算力竞争愈发白热化的背景下,AI芯片初创企业Taalas推出了一项突破性技术——通过“硬连线”方式将AI模型直接固化在硅片中,试图解决大模型推理延迟与成本高企的双重难题。与传统依赖高带宽内存(HBM)和复杂散热系统的设计不同,该公司选择专用集成电路(ASIC)路径,开发出能将任意AI模型转化为定制硅片的平台,核心原理是将特定大语言模型(LLM)的神经网络结构直接映射至芯片电路,在DRAM级密度下完成全部计算。
这一设计从物理层面消除了数据传输的“内存墙”瓶颈。通过摒弃HBM、多层封装及昂贵的散热方案,Taalas的芯片在理论架构上实现了计算与存储的深度融合。其首款产品HC1专为meta的Llama 3.1 8B模型优化,采用台积电6nm制程工艺,芯片面积达815平方毫米,几乎与英伟达H100相当。尽管如此,该芯片仅能容纳80亿参数的模型,与当前主流的万亿参数模型存在显著差距,反映出硬连线技术在参数密度上的天然限制。
性能测试数据显示,HC1在特定条件下可实现每秒17,000个tokens的生成速度。在EE Times的实测中,其在线聊天机器人演示达到每秒15,000+ tokens的输出能力。公司透露,这一成绩部分得益于对Llama3.1-8B模型的“激进量化”处理。更引人注目的是成本优势:相比现有高端算力方案,HC1的单位token生成成本降低至二十分之一,同时将推理速度提升10倍。
为弥补单芯片容量不足的问题,Taalas采用集群化扩展策略。在针对DeepSeek R1模型的测试中,30芯片组成的集群系统实现每用户12,000 TPS的吞吐量,远超当前GPU集群约200 TPS/User的行业水平。这种架构使实时交互场景中的延迟接近不可感知级别,特别适用于需要快速响应的复杂推理任务。TPS(每秒Token数)作为衡量模型生成效率的核心指标,其数值提升直接缩短了用户等待时间,类似于提升打字员的输入速度。
尽管技术参数亮眼,但Taalas的商业模式面临特殊挑战。由于模型权重被永久固化在芯片硬件中,客户需为特定算法版本购买专用设备。这意味着一旦底层模型更新迭代,已部署的硬件可能面临快速贬值的风险。行业分析师指出,这种“模型-芯片强绑定”的模式在算法进化速度极快的AI领域,可能制约其长期市场接受度。
相关阅读
-
身体这两个部位乱推拿真的会要命,快停止科技前沿 2026-03-09 14:26:16
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08