「我用的模型考試都考一百分」語言模型如何技術選型?內行人都這樣看模型跑分
介紹現行大型/多模態語言模型評測方式的目的及遇到的瓶頸,透過文獻回顧來討論從更多面向(認知、知識、公平、資安⋯⋯等)去衡量語言模型能力的思路,亦可作為開發者在選用語言模型時的技術選型階段能夠參考的指引與架構。另外也介紹實作語言模型評測資料集時會遇到的挑戰以及處理方式。
聽眾收穫:
能夠理解現行語言模型評測方式的痛點,並且開啟一個從更多面向去衡量語言模型的思路,讓開發者在選用語言模型時,有更明確的指引及架構。

講者
Summit Suen
Linker Vision
AI Solutions Architect
Summit is a seasoned data scientist with 10+ years working experiences providing actionable insights and intelligent data products across various industries.
- RecSys, AdTech, MLOps
- Active OSS Contributor (Apache Airflow, AutoGPT)
- Microsoft Most Valuable Professionals (Data Platform/AI) since 2017
(AI 翻譯)
Summit 是一位資深的資料科學家,擁有超過十年的跨領域實務經驗,致力於提供可落地的洞察分析與智慧化資料產品,推動企業決策與創新。
專精領域包括推薦系統(RecSys)、廣告科技(AdTech)、機器學習運營(MLOps)。同時也是活躍的開源社群貢獻者,參與專案如 Apache Airflow 與 AutoGPT。
自 2017 年起,Summit 連續獲選為 Microsoft 最有價值專家(MVP),在資料平台與人工智慧領域展現卓越貢獻。