基于机器视觉的唇语识别算法设计与系统开发

SRTP:AICLD 全自动增量建库(约 140 万样本、5000+ 说话人),唇读模型与训练,产出 IEEE TIP 等多篇 Q1 论文及发明专利、软著等知识产权。

计算机视觉

项目背景

随着人工智能、计算机视觉与自然语言处理技术的深度融合,唇语识别作为不依赖音频信号的沟通方式,在多领域展现出广阔应用前景且具有重要研究与应用价值,但中文唇语识别领域面临底层数据基建(数据集规模有限、依赖人工标注等)与顶层算法架构(低资源场景泛化差、时序建模不足等)的双重瓶颈,且缺乏对技术演进脉络的系统梳理,本次SRTP(大学生创新训练项目)聚焦数据基建与算法优化两大核心,旨在构建自动化可扩展中文唇语数据集、革新低资源算法架构并梳理技术演进规律,填补领域空白、提供技术支撑。

  1. 针对中文唇语数据集人工标注成本高、音画同步难与扩容慢的痛点,构建分布式 AI 辅助增量采集管线:FFmpeg 标准化预处理结合镜头边界检测与 SyncNet 音画对齐,集成 Aeneas/MFA 句子—单词分级强制对齐,采用 MTCNN+KCF 双重验证与 ResNet-18 身份聚类完成唇区 ROI 提取。基于此建成目前规模最大的 AICLD 语料(1,400,000+ 样本、5,238 名说话人、110+ 小时,日增 3,000+),支撑 TIP 数据集论文与发明专利。
  2. 针对仅有视频数据难以分层实验、入库易出现统计口径漂移的问题,定义统一元数据 schema(姿态角、关键帧、可靠性等)并建立抽检与一致性校验机制;在 AICLD 上构建涵盖规模梯度、预处理对比、时间分辨率敏感性及关键帧采样的多维实验矩阵,通过系统消融量化数据增益并确立最优处理范式,保障公开指标可核对与实验可复现。
  3. 主导 AICLD 唇语识别数据库平台架构设计与全栈开发,基于 Streamlit 构建集数据索引、版本控制及任务管理于一体的 Web 门户,落地云端全自动增量采集管线及标注/质检工作流与实时监控,编写技术文档与数据请求协议,支撑日级语料更新与团队合规检索使用(软著)。
  4. 针对低资源唇读过拟合与泛化差距大的问题,基于 PyTorch 搭建 SimMIM 预训练、Swin V2 骨干与 GN 时序分支及分阶段课程学习训练管线,在 AICLD-500 上较 SwinLip 基线 Top-1 提升 1.91 个百分点,显著收窄训练—验证差距,支撑 TASLP 方法论文。
  5. 针对视觉语音识别文献按模型结构零散发表、缺少从预处理到解码贯通视角的问题,参与按五个技术时代组织代表性方法与典型架构,建立按粒度、采集环境、语言与模态划分的数据集分类学,并撰写开放问题与未来方向章节,形成可引用的系统性参考框架,支撑 ARC 综述论文。

项目产出

技术栈

Python, PyTorch, Swin Transformer, FFmpeg tooling