一种AI 辅助的大规模唇语识别数据集自动化构建方法 一種 AI 輔助的大規模唇語識別資料集自動化構建方法

專利 · 2026

發表中國發明專利 · 實質審核階段

作者Hao Jiang, Jiaqing Chen, Yifei Luo

署名說明導師為第一發明人

  1. 針對唇語識別資料集人工標註成本高、音畫同步難的痛點,建構了分散式自動化處理管線。透過 FFmpeg 標準化預處理並結合顏色直方圖差異演算法(閾值 D>30)實現鏡頭邊界精準偵測,利用 SyncNet 模型計算音視訊餘弦相似度(閾值 0.3)自動校正偏移。該流程解決了海量影片素材的自動化採集與清洗難題,顯著提升了大規模資料建構的效率與音畫對齊一致性。
  2. 針對時序標註顆粒度粗導致唇動覆蓋不完整的問題,開發了從句子級到單詞級的分級強制對齊方案。利用 Aeneas 模組執行句子級音訊轉文字識別,並整合 MFA 工具實現單詞級時序匹配,根據詞彙字數執行毫秒級時間軸微調。該技術實現了單詞文字與影片片段的精確映射,產生帶唯一 ID 的拼音標註檔,為細粒度唇語識別提供了高品質的結構化資料基礎。
  3. 針對多說話人干擾及複雜姿態下 ROI 擷取不穩定的挑戰,設計了 MTCNN 偵測與 KCF 追蹤相結合的雙重驗證機制。利用 ResNet-18 特徵向量進行身份聚類,並訓練 SVM 分類器排除非說話狀態人臉及極端姿態偏移(如大幅偏航角);基於 68 個面部關鍵點執行 ROI 邊界框的動態比例擴展,在確保唇部開合細節完整擷取的同時,極大降低了訓練資料的雜訊干擾,增強了資料集的韌性。

本發明公開一種 AI 輔助的大規模唇語辨識資料集自動化建構方法及系統,透過建構分散式爬蟲擷取影片素材,經 FFmpeg 擷取音視訊流,結合鏡頭邊界偵測與 SyncNet 模型實現音視訊同步,藉助 Aeneas 與 MFA 工具完成音訊轉寫與時間戳對齊,採用 MTCNN 演算法、KCF 追蹤器及 ResNet-18 模型實現人臉偵測、說話者聚類,再基於唇部關鍵點擷取 ROI 並分類儲存,同時透過多模型驗證篩選高品質樣本,有效解決現有資料集建構成本高、品質差、同步難等問題,提升資料集建構效率與品質,為唇語辨識模型訓練提供高品質資料支撐。