一种AI 辅助的大规模唇语识别数据集自动化构建方法一種 AI 輔助的大規模唇語識別資料集自動化構建方法

專利 · 2026

發表中國發明專利 · 實質審核階段

作者Hao Jiang, Jiaqing Chen, Yifei Luo

署名說明導師為第一發明人

針對唇語識別資料集人工標註成本高、音畫同步難的痛點，建構了分散式自動化處理管線。透過 FFmpeg 標準化預處理並結合顏色直方圖差異演算法（閾值 D>30）實現鏡頭邊界精準偵測，利用 SyncNet 模型計算音視訊餘弦相似度（閾值 0.3）自動校正偏移。該流程解決了海量影片素材的自動化採集與清洗難題，顯著提升了大規模資料建構的效率與音畫對齊一致性。
針對時序標註顆粒度粗導致唇動覆蓋不完整的問題，開發了從句子級到單詞級的分級強制對齊方案。利用 Aeneas 模組執行句子級音訊轉文字識別，並整合 MFA 工具實現單詞級時序匹配，根據詞彙字數執行毫秒級時間軸微調。該技術實現了單詞文字與影片片段的精確映射，產生帶唯一 ID 的拼音標註檔，為細粒度唇語識別提供了高品質的結構化資料基礎。
針對多說話人干擾及複雜姿態下 ROI 擷取不穩定的挑戰，設計了 MTCNN 偵測與 KCF 追蹤相結合的雙重驗證機制。利用 ResNet-18 特徵向量進行身份聚類，並訓練 SVM 分類器排除非說話狀態人臉及極端姿態偏移（如大幅偏航角）；基於 68 個面部關鍵點執行 ROI 邊界框的動態比例擴展，在確保唇部開合細節完整擷取的同時，極大降低了訓練資料的雜訊干擾，增強了資料集的韌性。

本發明公開一種 AI 輔助的大規模唇語辨識資料集自動化建構方法及系統，透過建構分散式爬蟲擷取影片素材，經 FFmpeg 擷取音視訊流，結合鏡頭邊界偵測與 SyncNet 模型實現音視訊同步，藉助 Aeneas 與 MFA 工具完成音訊轉寫與時間戳對齊，採用 MTCNN 演算法、KCF 追蹤器及 ResNet-18 模型實現人臉偵測、說話者聚類，再基於唇部關鍵點擷取 ROI 並分類儲存，同時透過多模型驗證篩選高品質樣本，有效解決現有資料集建構成本高、品質差、同步難等問題，提升資料集建構效率與品質，為唇語辨識模型訓練提供高品質資料支撐。

具體工作內容

技術概要

基於機器視覺的唇語辨識演算法設計與系統開發