硬核推荐(角色扮演游戏平台)最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀,乐享资源网,

新闻稿:责任编辑源自于QQ社会公众号 物理位(ID:QbitAI),译者:梦晨,许可值班员之家转发正式发布。

什么AI应用每秒钟处置20000个AI逻辑推理允诺,达至2024年Google搜寻网络流量的1/5?

答案是秃鹰Character.ai,由Transformer译者Noam Shazeer(后面简称沙哥)创办。

刚刚,沙哥发布了逻辑推理强化绝技诀窍,迅速引起业界轩然大波。

简而言之Character.ai在整个服务栈中同时实现了如下成绩:

缓存高效率体系结构:将KV缓存大小不一增加20倍以内,而不能增加产品质量

Attention状况缓存:95%允诺无须Villefagnan

直接用in8精度量化体能训练:逻辑推理零损失谭丽萍显卡

Character.AI通过以内种种强化,已经把逻辑推理制造成本增加到最初的1/33,如果用市场上最好的商业API来支撑这种级别的网络流量,制造成本会比现在高出13.5倍!

众多发布的方法中,原生int8体能训练是倍受关注的。

虽然绝大多数技巧都源自申明研究,但是正如网民所说,知道如何把它们高效率整合在一同同时实现的项目组才是真正的城壕。

诀窍1:高效率利用显卡,attention 参数量增加20倍

大数学模型的一大关键点是显卡挤占高,导致无法支持批量逻辑推理。Attention 层中的 Key-Value(KV)缓存便是元凶之一。

为了增加显卡挤占,Character.AI在Attention层大做手术:

全面选用MQA(Multi-Query Attention)

与绝大多数开放源码数学模型中选用的GQA(Grouped-Query Attention)相比,将KV缓存大小不一增加了8倍。

而MQA正是沙哥本人2019年在Google期间提出的,有网民评价“当一个人会在制造环境中引用自己的论文,就达至了一个捷伊高度”。

混合目光视野

将局部性目光与自上而下目光层交错在一同,采用翻转窗口体能训练局部性目光,将维数从 O(length^2) 增加到 O(length)。

项目组辨认出,将绝大多数目光层的目光范围增加到1024不能对评估指标产生重大影响,包括长语句Reston基准。在Character.ai制造数学模型中,每6层中只有1层采用自上而下目光

aerialKV共享资源

项目组将KV缓存存取在相邻的目光层上,这进一步将 KV缓存大小不一增加了2-3倍。

对于自上而下目光,跨块存取多个自上而下层的KV缓存,因为自上而下目光层在长语句示例中主导KV缓存大小不一,项目组辨认出aerial共享资源KV不能增加产品质量。

右图中右半部分是标准Transformer设计,每个目光都是自上而下目光。右面分为Character.ai的设计,蓝色框则表示自上而下目光,绿色框则表示局部性目光,联络人则表示KV共享资源。

这一套杀手锏下来,KV缓存大小不一增加20倍以内,显卡布季困局了。

诀窍2:充分运用状况缓存,95%允诺无须Villefagnan

Character.AI还有三招Fournels,就是在不同对话之间缓存Attention状况

作为聊天机器人动作游戏服务,Character.AI上大部分对话都是连续多轮的,平均每个对话包含180条消息。如果每次都要重新计算前面的状况,制造成本可想而知。

于是项目组设计了一个缓存机制,把每个对话的Prefix和生成的消息都缓存在缓存中,供后续调用。

借鉴RadixAttention的思路,树状结构的LRU缓存组织缓存的KV张量。缓存的KV值由前缀token的Rolling Hash速检索最长匹配的缓存,即使前缀只有部分匹配也能命中。

更妙的是,他们还用会话保持(Sticky Session)把同一对话路由到同一个服务器,进一步提高缓存命中率。最终做到95%的允诺都能复用已有缓存,大幅增加了计算制造成本。

右图中,蓝色框则表示主机缓存上的缓存张量。绿色和黄色框则表示CUDA缓存上的KV缓存。当新查询到达时,它检索最长匹配前缀的KV缓存,Rolling Hash系统允许检索部分匹配消息的缓存。

诀窍3:直接量化体能训练,逻辑推理零损失谭丽萍显卡

最后三招,Character.AI没有选用常见的“体能训练后量化”,而是直接用Int8精度体能训练数学模型

这种格式虽然表达精度增加,但通过精心设计定制的矩阵乘和 Attention 内核,不仅把体能训练效率提高了好几倍,而且还能无损用于逻辑推理。

不过沙哥在这里暂时留了一手,则表示“量化体能训练本身就是一个复杂的话题,将在以后的文章中继续讨论。”

沙哥其人

最后再来介绍一下传奇人物Noam Shazeer本人。

他1994年拿了信息学奥赛IOI金牌,后来毕业于杜克大学。

2000年加入Google,当时全公司只有200人左右,他参与了Google搜寻的拼写纠正功能,后来也负责过早期广告系统。

据知情人透露,在当初面试Google时,沙哥就被问到如何同时实现拼写纠正。他描述了一种根据其他用户的输入输入记录,进行统计验证的方法。

面试官Gmail之父Paul Buchheit意识到,沙哥的方案比Google当时采用的要好。沙哥成功入职之后就把他的面试方案写出来了。

在Transformer开山之作《Attention is All You Need》研究中,沙哥最后一个加入项目组,一来就负责重新编写了整个代码。

在沙哥出手之前,Transformer早期原型性能并没有超越当时流行的LSTM方案,是他把早期设计中的卷积等模块都拿掉,给出了一个极简主义方案。最终破了BLEU测试的记录,同时计算效率也更高。

队友用“他是一个巫师”来评价他的工程和代码能力。

除此之外,沙哥还有惊人的远见。在Transformer架构问世不久,他就给Google高层写信,提议公司放弃整个搜寻索引,并用Transformer架构体能训练一个巨大的神经网络替代。

2021年,沙哥离开Google后创办了Character.AI,让玩家简单自创个性化AI陪聊,目前估值约50亿美元。

最近有消息称,Meta与马斯克的𝕏都在争取与他们合作,把聊天机器人引入社交平台。

参考链接:

[1]https://research.character.ai/optimizing-inference/

[2]https://x.com/NoamShazeer/status/1803790708358410380

(举报)

© 版权声明
喜欢就支持一下吧
点赞15赞赏 分享