九號工具站
返回列表

Claude Token 省錢攻略:7 招有效減少 Token 用量

Claude Token 省錢攻略 - 7 個實戰技巧幫你降低 50% 以上的 API 費用,包含模型選擇、Prompt Caching、批次處理等完整省錢策略

AI Claude 效率 工具

最後更新:2026-05-25

1. 什麼是 Token?為什麼要省?

<p>Token 是 AI 模型處理文字的基本單位。大約 1 個中文字 = 2-3 個 tokens,1 個英文單字 = 1-2 個 tokens。使用 Claude API 時,你需要為輸入(input)和輸出(output)的 token 數量付費。</p>

<div style="background: #fef3c7; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<h3>💰 Claude API 定價參考(2026)</h3>
<table style="width:100%; border-collapse: collapse;">
<tr style="background: #f59e0b; color: white;">
<td style="padding: 8px; border: 1px solid #ddd;"><strong>模型</strong></td>
<td style="padding: 8px; border: 1px solid #ddd;"><strong>輸入</strong></td>
<td style="padding: 8px; border: 1px solid #ddd;"><strong>輸出</strong></td>
</tr>
<tr><td style="padding: 8px; border: 1px solid #ddd;">Claude Opus 4</td><td style="padding: 8px; border: 1px solid #ddd;">$15/MTok</td><td style="padding: 8px; border: 1px solid #ddd;">$75/MTok</td></tr>
<tr><td style="padding: 8px; border: 1px solid #ddd;">Claude Sonnet 4</td><td style="padding: 8px; border: 1px solid #ddd;">$3/MTok</td><td style="padding: 8px; border: 1px solid #ddd;">$15/MTok</td></tr>
<tr><td style="padding: 8px; border: 1px solid #ddd;">Claude Haiku 3.5</td><td style="padding: 8px; border: 1px solid #ddd;">$0.80/MTok</td><td style="padding: 8px; border: 1px solid #ddd;">$4/MTok</td></tr>
</table>
<p style="margin-top: 10px; font-size: 0.9em;">MTok = 百萬 tokens。輸出通常比輸入貴 3-5 倍!</p>
</div>

2. 7 招有效減少 Token 用量

<h3>第 1 招:選對模型,省最多</h3>
<div style="background: #eff6ff; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<p>不是所有任務都需要最強的模型:</p>
<ul>
<li><strong>Haiku</strong>:分類、摘要、簡單問答、格式轉換 → 成本最低</li>
<li><strong>Sonnet</strong>:程式撰寫、內容創作、資料分析 → 性價比最高</li>
<li><strong>Opus</strong>:複雜推理、研究分析、高品質寫作 → 品質最好</li>
</ul>
<p>💡 <strong>實戰建議</strong>:先用 Haiku 做初步篩選和分類,再用 Sonnet 處理需要品質的任務。光是這一招就能省 70% 以上的費用。</p>
</div>

<h3>第 2 招:精簡 System Prompt</h3>
<div style="background: #eff6ff; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<p>System prompt 在每次 API 呼叫都會消耗 tokens。很多人的 system prompt 寫得又臭又長:</p>
<p>❌ <strong>浪費版</strong>(500+ tokens):</p>
<p style="background: #fee2e2; padding: 10px; border-radius: 5px;">「你是一位非常專業的、有豐富經驗的、在業界備受推崇的資深軟體工程師,你擁有超過二十年的程式開發經驗,精通各種程式語言包括但不限於 Python、JavaScript、Java、C++、Go、Rust...」</p>
<p>✅ <strong>精簡版</strong>(50 tokens):</p>
<p style="background: #dcfce7; padding: 10px; border-radius: 5px;">「資深軟體工程師。回覆要求:精簡、附程式碼範例、標注時間複雜度。」</p>
<p>💡 每天 1000 次呼叫,光是精簡 system prompt 一年就能省下數百美元。</p>
</div>

<h3>第 3 招:控制輸出長度</h3>
<div style="background: #eff6ff; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<p>輸出 token 的價格是輸入的 3-5 倍,控制輸出長度是最有效的省錢方式:</p>
<ul>
<li>使用 <code>max_tokens</code> 參數限制回覆長度</li>
<li>在 prompt 中明確要求「100 字以內回覆」或「用 3 個 bullet points 回答」</li>
<li>要求 JSON 格式回覆,避免冗長的自然語言</li>
</ul>
<p>❌ 「請詳細解釋 REST API 的設計原則」→ 可能產生 2000+ tokens<br>
✅ 「用 5 條規則摘要 REST API 設計原則,每條 20 字以內」→ 約 200 tokens</p>
</div>

<h3>第 4 招:善用 Prompt Caching</h3>
<div style="background: #eff6ff; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<p>Claude API 支援 Prompt Caching,重複的 prompt 前綴只收 10% 的費用:</p>
<ul>
<li>把不變的 system prompt 和文件放在前面</li>
<li>變動的使用者輸入放在最後</li>
<li>快取有效時間為 5 分鐘,適合連續對話或批次處理</li>
</ul>
<p>💡 如果你有一份大文件需要回答多個問題,Prompt Caching 能省下 90% 的重複輸入費用。</p>
</div>

<h3>第 5 招:批次處理(Batches API)</h3>
<div style="background: #eff6ff; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<p>不需要即時回覆的任務,使用 Batches API 可享 <strong>50% 折扣</strong>:</p>
<ul>
<li>批次翻譯大量文件</li>
<li>夜間處理資料分析</li>
<li>定期生成報告</li>
<li>大量內容分類或標記</li>
</ul>
<p>Batches API 會在 24 小時內處理完成,適合非即時性的工作。</p>
</div>

<h3>第 6 招:對話歷史管理</h3>
<div style="background: #eff6ff; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<p>多輪對話中,每次都會重送所有歷史訊息。對話越長,token 消耗越驚人:</p>
<ul>
<li><strong>摘要策略</strong>:對話超過 10 輪時,用 Haiku 把前面的對話摘要成精華</li>
<li><strong>滑動窗口</strong>:只保留最近 5-10 輪對話,搭配摘要</li>
<li><strong>關鍵資訊提取</strong>:從歷史對話中只保留關鍵決策和結論</li>
</ul>
<p>💡 一個 20 輪對話,如果不做管理,第 20 輪的輸入可能包含前 19 輪的所有內容,token 暴增 10 倍以上。</p>
</div>

<h3>第 7 招:預處理和後處理</h3>
<div style="background: #eff6ff; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<p>不要把所有工作都丟給 AI:</p>
<ul>
<li><strong>預處理</strong>:用正則表達式、字串處理先清理輸入(去除無關內容、HTML 標籤)</li>
<li><strong>分段處理</strong>:大文件先用程式切成重要段落,只送需要 AI 處理的部分</li>
<li><strong>快取結果</strong>:相同或相似的查詢,用 Redis/資料庫快取 AI 回覆</li>
<li><strong>後處理</strong>:格式調整、排版等用程式處理,不要浪費 AI token</li>
</ul>
</div>

3. 實際省錢案例

<div style="background: #f0fdf4; padding: 20px; border-radius: 10px; margin-bottom: 20px;">
<h3>案例:客服聊天機器人</h3>
<p><strong>優化前</strong>:全部使用 Sonnet,system prompt 800 tokens,無對話管理<br>
→ 月費用:$500</p>
<p><strong>優化後</strong>:</p>
<ul>
<li>先用 Haiku 分類問題(省 80%)</li>
<li>精簡 system prompt 到 100 tokens(省 87%)</li>
<li>啟用 Prompt Caching(再省 90%)</li>
<li>對話超過 8 輪自動摘要(省 60%)</li>
</ul>
<p>→ 月費用:<strong>$85</strong>(省了 83%)</p>
</div>

重點整理

  • 1 選對模型是最大的省錢關鍵:簡單任務用 Haiku,複雜才用 Opus
  • 2 輸出 token 比輸入貴 3-5 倍,控制回覆長度效果最好
  • 3 Prompt Caching 讓重複內容只收 10% 費用,Batches API 享 50% 折扣
  • 4 多輪對話一定要做歷史管理,否則 token 會指數級暴增
  • 5 用程式做預處理和快取,不要把所有工作都交給 AI
ℹ️

一般聲明

本站提供之資訊僅供參考,不保證其完整性與正確性。使用者應自行判斷資訊之適用性。

意見反饋