2024-09-11 | 13:30 - 14:10

評估驅動開發: 生成式 AI 軟體不確定性的解決方法

Eval-Driven Development (EDD) 是一種通過特定任務評估,來引導開發 LLM-based 的應用軟體。我們會合成和製作資料集,設計評估指標,然後在評估的輔助下,實現 LLM 應用功能。簡單來說,就是先寫評估再開發。

在評估機制的支持下,我們可以自動最佳化超參數,包括自動提示詞生成 ,來提高應用性能。我們也可以透過這個機制,確保提示詞變更或升級更換模型時,AI 性能不會退化。

最後,評估流程還可以搭配 LLMOps 收集線上數據,進行數據飛輪不斷迭代改進,持續提升 AI 性能。

聽眾收穫

聽眾將掌握先寫評估再開發的方法論,確保開發出的 AI 軟體能夠達到預期的性能指標。在開發初期就確立明確的目標,從而提高開發效率和結果的可靠性。並且透過自動最佳化超參數技術,可以顯著減少人工調參的工作量,並提升和保障軟體的整體 AI 性能。

講者

張文鈿(ihower)

愛好資訊科技有限公司
創辦人

全端開發者、生成式AI工程師、開課講師。2002年開始從事 Web App 軟體開發工作,曾任新創公司技術長、多年程式教育講師。目前自行開業愛好資訊有限公司、經營愛好 AI Engineer 電子報,專長是 Ruby on Rails 和 Generative AI 技術。