生產力工具

TwelveLabs：讓 AI 用「人類視角」看懂影片的革命技術

你有沒有想過，Netflix 為什麼總能精準跳到你想看的那一幕？或是體育轉播怎麼在幾秒內就切出最精彩的片段？背後的秘密，可能就是 TwelveLabs —— 一家正在顛覆「影片理解方式」的 AI 公司。他們的技術不只是單純「觀看」影片，而是真正像人類一樣「理解」內容，從情境、動作到時空脈絡都能掌握。這不只是一個新的 AI 工具，更是正在改變企業如何運用影片資產的大革命，讓原本被冷落的大量影片內容，搖身一變成為可搜尋、可分析的資料寶庫。

Edwin Wong

23 Apr 2025 • 8 min read

讓 AI 用「人類視角」看懂影片

視覺智能的新時代

在 AI 快速發展的今天，影片理解（video understanding）已經成為最具挑戰性的前沿領域之一。影片不只是畫面，還包含聲音、語意和時間的流動，這種多模態的複雜性對機器來說是非常棘手的。

TwelveLabs 就是在這樣的背景下於 2021 年成立，總部設於舊金山。他們打造的企業級影片理解平台，自詡為「世界上最強大的影片 AI 解決方案」。

這個平台的厲害之處，在於它讓 AI 能夠像人一樣去看、聽、理解整個影片庫的內容。不是單純比前一代技術強一點點，而是根本性的改變：使用者可以找出任何畫面、挖掘深層洞察、重製內容，甚至自動化整個工作流程。

與其他競爭者最大的不同，是 TwelveLabs 對「多模態理解」的處理方式。他們不是單純逐格分析，而是從畫面元素、語音語意、時間脈絡之間的關聯出發，就像我們人類看影片那樣自然。

技術核心：讓 AI 看懂影片的兩大引擎

TwelveLabs 的技術基礎，建立在兩個強大的核心模型上：

Marengo：這是一個高階的編碼器，能讀懂影片中每一格畫面的空間與視覺資訊，例如物件、人物、場景與動作。
Pegasus：則是一個「影片語言模型」，能夠把影片內容與自然語言連結起來，讓使用者可以用日常語言來搜尋與互動。

2024 年 4 月，他們推出了 Pegasus-1 —— 專為影片理解設計的多模態語言模型，並已將研究成果公開在 arXiv。

真實應用：從娛樂到運動，全面改造影片工作流程

TwelveLabs 的技術已經在多個產業中落地，應用非常廣泛：

媒體與娛樂產業：後製團隊可以自動分類影片素材，例如「戰鬥場面」或「王座廳對話」，大大提升編輯效率。
體育分析：NBA 球隊會用它來分析比賽片段，為不同球迷量身打造內容，同時保留每支球隊的品牌風格。
影片搜尋：媒體公司可以把過去難以利用的海量影片變成可搜尋的資產，讓用戶只需輸入自然語言就能找到特定時刻。
影視製作：拍攝當天的素材（daily rushes）可以自動歸檔、剪輯重點、生成摘要，甚至自動建議標題或字幕。

有位 NBA 球隊的資料科學主管就說：「透過 TwelveLabs 的生成式 AI，我們能挖掘出過去被忽略的影片價值，製作更貼近球迷的個人化內容，同時也能保留球隊風格，這一切都得益於他們的團隊專屬生成模型」。

為什麼 TwelveLabs 技術這麼與眾不同？

許多平台只專注在某一個面向（像是畫面辨識或語音轉譯），但 TwelveLabs 提供的是一整套整合性的影片理解系統：

🔍 搜尋：用自然語言找出任何畫面

用戶可以同時搜尋語音、字幕、聲音與畫面，找出最符合情境的片段。這不是關鍵字比對，而是真正理解影片內容。

例如，你可以搜尋「雨中感人重逢」，系統會找出所有符合的片段，哪怕影片裡根本沒講出這幾個字。

✨ 生成：從影片中提煉新洞察

平台可以自動生成摘要、建議標題、整理內容，甚至幫你把同一支影片重製成適合不同平台或觀眾族群的版本。

🧠 嵌入：讓開發者做出進階應用

開發者可以透過 TwelveLabs 的嵌入功能，為影片建立多模態向量（embeddings），這些向量不只包含畫面資訊，還融合語意與時序關係。支援 Vespa、Qdrant 等向量資料庫，實作語意搜尋超方便。

他們甚至能夠逐場景分析影片，辨認動作、物件、角色與場景變化，並自動生成時間軸，整理出影片的核心片段。

面對競爭，TwelveLabs 為何依然領先？

2024 年可說是「多模態生成式 AI」大爆發的一年。像是 Landing AI、Pika、ByteDance 都在開發影片 AI 模型，開源模型如 Qwen 2.5 VL 和 Gemma 3 12b 也在持續進步。

TwelveLabs 的優勢在於他們從一開始就是為「影片」這個媒介量身打造技術，不是從圖片或文字模型轉過來。他們的模型不僅在準確度上超越各大雲端平台與開源模型，而且具備超高的可擴展性，能處理高達 PB 等級的影片資料庫，特別適合大型企業。

影片搜尋的未來，才剛開始

在這個影像內容爆炸的時代，我們比以往更需要一套真正理解影片的工具。TwelveLabs 的技術，讓影片變得像文字一樣容易搜尋、分析、再利用。

這不只是讓生活更方便，更是開啟了一個全新的內容世界。過去我們無法有效利用的教育影片、歷史檔案、監視錄影，甚至娛樂內容，都能被轉化成有價值、可存取的資訊資產。

NVIDIA 的 Sid Siddeek 也說：「TwelveLabs 擁有世界級的團隊，配合 NVIDIA 的加速運算技術，他們在影片理解上的成就，正為企業開啟生成式 AI 的新機會」。

人人可用、隨時上手

最棒的是，TwelveLabs 提供多層級的價格方案。從免費方案（支援最多 10 小時影片索引），到企業方案（無限索引、專屬環境與進階功能）都有。

這個策略讓不論是個人開發者還是中小型公司，都能在沒有壓力的情況下試用、開發，再逐步擴大。

開發者也可使用官方 SDK（支援 JavaScript/TypeScript），操作流程直覺，從建立索引、上傳影片到進行搜尋與生成都能輕鬆搞定。

小結：影片理解的革命，才剛起步

TwelveLabs 是少數真正把最尖端 AI 研究，實際應用在產業裡的公司。他們不只是「讓 AI 看影片」，而是「讓 AI 看懂影片」，並且幫助各行各業釋放影片的最大價值。

他們近期也在 Web Summit Qatar 和 MWC Barcelona 等國際科技盛會中展示最新進展，持續深化技術、拓展應用。

如果你是內容創作者、數據分析師，或是手上握有大量影片資料的企業，不妨試試這項技術 —— 因為影片不該只是死資料，而是未來最珍貴的內容資產。而 TwelveLabs，正站在這場影片 AI 革命的最前線。

網址連結：https://www.twelvelabs.io