展會(huì)信息港展會(huì)大全

月之暗面Kimi開(kāi)放平臺(tái)“上下文緩存”開(kāi)啟公測(cè):首Token延遲降低83%
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-07-02   瀏覽:279次  

導(dǎo)讀:月之暗面官宣 Kimi 開(kāi)放平臺(tái)上下文緩存(Context Caching)功能開(kāi)啟公測(cè)。官方表示,該技術(shù)在 API 價(jià)格不變的前提下,可為開(kāi)發(fā)者降低最高 90% 的長(zhǎng)文本旗艦大模型使用成本,并提升模型響應(yīng)速度。 IT之家附 Kimi 開(kāi)放平臺(tái)上下文緩存功能公測(cè)詳情如 ......

月之暗面官宣 Kimi 開(kāi)放平臺(tái)上下文緩存(Context Caching)功能開(kāi)啟公測(cè)。官方表示,該技術(shù)在 API 價(jià)格不變的前提下,可為開(kāi)發(fā)者降低最高 90% 的長(zhǎng)文本旗艦大模型使用成本,并提升模型響應(yīng)速度。

月之暗面Kimi開(kāi)放平臺(tái)“上下文緩存”開(kāi)啟公測(cè):首Token延遲降低83%

IT之家附 Kimi 開(kāi)放平臺(tái)上下文緩存功能公測(cè)詳情如下:

技術(shù)簡(jiǎn)介

據(jù)介紹,上下文緩存是一種數(shù)據(jù)管理技術(shù),允許系統(tǒng)預(yù)先存儲(chǔ)會(huì)被頻繁請(qǐng)求的大量數(shù)據(jù)或信息。當(dāng)用戶請(qǐng)求相同信息時(shí),系統(tǒng)可以直接從緩存中提供,無(wú)需重新計(jì)算或從原始數(shù)據(jù)源中檢索。

月之暗面Kimi開(kāi)放平臺(tái)“上下文緩存”開(kāi)啟公測(cè):首Token延遲降低83%

適用場(chǎng)景

上下文緩存適用于頻繁請(qǐng)求,重復(fù)引用大量初始上下文場(chǎng)景,可降低長(zhǎng)文本模型費(fèi)用,提高效率。官方表示費(fèi)用最高降低 90 %,首 Token 延遲降低 83%。適用業(yè)務(wù)場(chǎng)景如下:

提供大量預(yù)設(shè)內(nèi)容的 QA Bot,例如 Kimi API 小助手

針對(duì)固定的文檔集合的頻繁查詢,例如上市公司信息披露問(wèn)答工具

對(duì)靜態(tài)代碼庫(kù)或知識(shí)庫(kù)的周期性分析,例如各類 Copilot Agent

瞬時(shí)流量巨大的爆款 AI 應(yīng)用,例如哄哄模擬器,LLM Riddles

交互規(guī)則復(fù)雜的 Agent 類應(yīng)用等

月之暗面Kimi開(kāi)放平臺(tái)“上下文緩存”開(kāi)啟公測(cè):首Token延遲降低83%

月之暗面Kimi開(kāi)放平臺(tái)“上下文緩存”開(kāi)啟公測(cè):首Token延遲降低83%

計(jì)費(fèi)說(shuō)明

上下文緩存收費(fèi)模式主要分為以下三個(gè)部分:

Cache 創(chuàng)建費(fèi)用

調(diào)用 Cache 創(chuàng)建接口,成功創(chuàng)建 Cache 后,按照 Cache 中 Tokens 按實(shí)際量計(jì)費(fèi)。24 元 / M token

Cache 存儲(chǔ)費(fèi)用

Cache 存活時(shí)間內(nèi),按分鐘收取 Cache 存儲(chǔ)費(fèi)用。10 元 / M token / 分鐘

Cache 調(diào)用費(fèi)用

Cache 調(diào)用增量 token 的收費(fèi):按模型原價(jià)收費(fèi)

Cache 調(diào)用次數(shù)收費(fèi):Cache 存活時(shí)間內(nèi),用戶通過(guò) chat 接口請(qǐng)求已創(chuàng)建成功的 Cache,若 chat message 內(nèi)容與存活中的 Cache 匹配成功,將按調(diào)用次數(shù)收取 Cache 調(diào)用費(fèi)用。0.02 元 / 次

月之暗面Kimi開(kāi)放平臺(tái)“上下文緩存”開(kāi)啟公測(cè):首Token延遲降低83%

公測(cè)時(shí)間和資格說(shuō)明

公測(cè)時(shí)間:功能上線后,公測(cè) 3 個(gè)月,公測(cè)期價(jià)格可能隨時(shí)調(diào)整。

公測(cè)資格:公測(cè)期間 Context Caching 功能優(yōu)先開(kāi)放給 Tier5 等級(jí)用戶,其他用戶范圍放開(kāi)時(shí)間待定。

贊助本站

人工智能實(shí)驗(yàn)室

相關(guān)熱詞:

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港