Ziyang.Zhang
|
5b94c40016
|
[代码重构中]编写融合VAD,ASR,SPK(FAKE)的ASRPipeline并完成测试,正常运行。
|
2025-06-06 17:26:08 +08:00 |
|
Ziyang.Zhang
|
3d8bf9de25
|
[代码重构中]创建假的SPKFunctor以测试消息队列流程是否正确,无问题,待进一步实现说话人识别,此外,考虑将一些共有内容写入BaseFunctor中。
|
2025-06-05 17:08:42 +08:00 |
|
Ziyang.Zhang
|
ff9bd70039
|
[代码重构中]初步构建ASRFunctor,与VADFunctor在vad_test.py中进行联调无问题,数据衔接正常。
|
2025-06-05 15:57:11 +08:00 |
|
Ziyang.Zhang
|
4e9e94d8dc
|
[代码重构中]完善VADFunctor,测试持久化保存VAD片段的音频数据成功。
|
2025-06-05 13:43:23 +08:00 |
|
Ziyang.Zhang
|
b569b7e63d
|
[代码重构中]测试VADFuntor中,发现字节流推理问题,待进一步研究
|
2025-06-03 17:41:59 +08:00 |
|
Ziyang.Zhang
|
f245c6e9df
|
[代码重构中]编写ASRpipeline,管理funtor的线程启动,管理funtor间消息队列queue
|
2025-06-03 09:19:15 +08:00 |
|
Ziyang.Zhang
|
49cb428c23
|
[代码重构中]编写class STT_Runner中,将设计为线程启动。作为异步IO与资源管理模块。
|
2025-05-28 18:00:54 +08:00 |
|
Ziyang.Zhang
|
703a40e955
|
[代码重构中]重构model_loader与audio_chunk,全局单例模式管理模型加载与audiobinary数据存储单元类。删除readme中不需要的MIT许可证。
|
2025-05-28 10:35:35 +08:00 |
|
Ziyang.Zhang
|
040fc57e02
|
[代码重构中]重构Functor下的函数定义,修改为一个BaseFunctor+ModelLoader+DataCache进行基底构建。
|
2025-05-21 11:49:28 +08:00 |
|
Ziyang.Zhang
|
1392168126
|
Merge branch 'feature_logger' into dev
[Feature] 添加了logger用于管理日志,同时测试了ASR、PUNC、SPK模型效果;
[BUG] 发现BUG:使用funasr的一些模块会导致logger被更改,这一点需要进一步讨论解决方案
|
2025-04-16 14:30:40 +08:00 |
|
Ziyang.Zhang
|
eff22cb33e
|
[Feature] 测试了后续的ASR、punc、spk效果; BUG:在调用funasr后,logger信息会被改变,导致格式变化,重复输出。
|
2025-04-16 14:30:11 +08:00 |
|
Ziyang.Zhang
|
66c9477e4b
|
[Feature] 添加src/utils/logger文件控制程序日志输出,包括一个root配置器和logger生成器。
|
2025-04-16 10:46:09 +08:00 |
|
|
9d522fa137
|
Merge branch 'feature_vad' into dev
[项目结构变动] 分离了模型加载、功能实现、整体工作流等内容
[功能开发] 使用pydantic规范数据格式;开发VAD声音端点检测functor;
[测试] 完成了本地流式(online)的VAD检测,完成了 logic_traher(仅包含VAD与VAD检测结果)的工作流程测试
[未来内容] 1.完成ASR、时间戳、说话人识别;2.接入websocket服务。
|
2025-04-15 17:18:48 +08:00 |
|
|
f7138dcb39
|
[Feature] 调整VAD工作流程,规范VAD产出数据规范为 models/audiobinary中的AudioBinary_Chunk;完整测试LogicTrager VAD online流程。
|
2025-04-15 17:15:13 +08:00 |
|
|
8b69ff195f
|
[Feature] Add /tests/modelsuse 测试实时VAD检测。
|
2025-04-15 13:53:06 +08:00 |
|
|
86e5425787
|
[Init] 初始化项目,基于funasr的实时语音识别
|
2025-04-14 11:04:36 +08:00 |
|