基於機器視覺的唇語辨識演算法設計與系統開發

SRTP:AICLD 全自動增量建庫(約 140 萬樣本、5000+ 說話人),唇讀模型與訓練,產出 IEEE TIP 等多篇 Q1 論文及發明專利、軟著等智慧財產權。

電腦視覺

專案背景

隨著人工智慧、電腦視覺與自然語言處理技術之深度融合,唇語辨識作為不依賴音訊之溝通方式,於多領域展現廣闊應用前景並具重要研究與應用價值,惟中文唇語辨識領域面臨底層資料基建(資料集規模有限、依賴人工標註等)與頂層演算法架構(低資源場景泛化差、時序建模不足等)之雙重瓶頸,且缺乏對技術演進脈絡之系統梳理,本次 SRTP(大學生創新訓練專案)聚焦資料基建與演算法最佳化兩大核心,旨在建置自動化可擴展中文唇語資料集、革新低資源演算法架構並梳理技術演進規律,填補領域空白、提供技術支撐。

  1. 針對中文唇語資料集人工標註成本高、音畫同步難與擴容慢的痛點,建構分散式 AI 輔助增量採集管線:FFmpeg 標準化預處理結合鏡頭邊界偵測與 SyncNet 音畫對齊,整合 Aeneas/MFA 句子—單詞分級強制對齊,採用 MTCNN+KCF 雙重驗證與 ResNet-18 身份聚類完成唇區 ROI 擷取。基於此建成目前規模最大的 AICLD 語料(1,400,000+ 樣本、5,238 名說話人、110+ 小時,日增 3,000+),支撐 TIP 資料集論文與發明專利。
  2. 針對僅有影片資料難以分層實驗、入庫易出現統計口徑漂移的問題,定義統一元資料 schema(姿態角、關鍵影格、可靠性等)並建立抽檢與一致性校驗機制;於 AICLD 上建構涵蓋規模梯度、預處理對比、時間解析度敏感性及關鍵影格採樣之多維實驗矩陣,透過系統消融量化資料增益並確立最優處理範式,保障公開指標可核對與實驗可重現。
  3. 主導 AICLD 唇語識別資料庫平台架構設計與全端開發,基於 Streamlit 建構集資料索引、版本控制及任務管理於一體的 Web 入口,落地雲端全自動增量採集管線及標註/質檢工作流與即時監控,編寫技術文件與資料請求協定,支撐日級語料更新與團隊合規檢索使用(軟著)。
  4. 針對低資源唇讀過擬合與泛化差距大之問題,基於 PyTorch 建置 SimMIM 預訓練、Swin V2 骨干與 GN 時序分支及分階段課程學習訓練管線,於 AICLD-500 上較 SwinLip 基線 Top-1 提升 1.91 個百分點,顯著縮窄訓練—驗證差距,支撐 TASLP 方法論文。
  5. 針對視覺語音識別文獻按模型結構零散發表、缺少由前處理至解碼貫通視角之問題,參與按五個技術時代組織代表性方法與典型架構,建立按粒度、採集環境、語言與模態劃分之資料集分類學,並撰寫開放問題與未來方向章節,形成可引用之系統性參考框架,支撐 ARC 綜述論文。

專案產出

技術棧

Python, PyTorch, Swin Transformer, FFmpeg tooling