摘要:
[目的/意义]针对细分领域非均衡数据环境下存在的两类关键问题——长尾分布导致的尾部类别表征稀疏,以及文本内容多类别共存引发的特征聚焦偏差,本文设计了一种基于数据拆分与迭代优化的数据优化方法(DOSI)。[方法/过程]该方法通过构建领域解耦的“一对多”分析架构,强化特定领域内的鉴别性特征表达,并引入自适应噪声抑制机制消除跨领域噪声。具体实施流程包含四个关键阶段:领域敏感特征词库构建、文本特征显著性检测、跨领域噪声过滤、增量式优化迭代,通过动态平衡噪声抑制与信息完整性需求,实现分类器性能的渐进式提升。[结果/结论]在上市公司经营业务文本分类任务中,经过两轮优化迭代,分类器准确率提升7.5%(56.40%→60.62%),Macro_F1指标增幅达25.2%(40.41%→50.58%),验证了该方法在细分领域文本分类场景中的有效性。