• 中国核心期刊(遴选)数据库收录期刊
  • 中文科技期刊数据库收录期刊
  • 中国学术期刊(光盘版)收录期刊
  • 中国人民大学报刊资料数据库收录期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中国台湾华艺数据库收录期刊

情报探索 ›› 2025, Vol. 1 ›› Issue (6): 1-.

• 工作研究 •    

一种面向非均衡细分领域文本分类的数据拆分与迭代优化方法*

  

  1. 1.中国科学技术信息研究所 北京 100038)

    2.中国电子工程设计院股份有限公司 北京 100142)

    3.富媒体数字出版内容组织与知识服务重点实验室 北京 100038)

  • 出版日期:2025-06-15 发布日期:2025-08-29
  • 作者简介:王莉军(1978—),女,博士,副研究员,主要从事智能情报、数据挖掘研究;黄梦婷(1998—),女,硕士,工程师,通讯作者,主要从事智能信息处理研究;高影繁(1974—),女,博士,研究员,主要从事智能信息处理研究。
  • 基金资助:

    *本文系中国科学技术信息研究所重点工作项目“面向战略决策的智能情报引擎研究及应用”(项目编号:ZD2025-08)研究成果之一。

  • Online:2025-06-15 Published:2025-08-29

摘要:

[目的/意义]针对细分领域非均衡数据环境下存在的两类关键问题——长尾分布导致的尾部类别表征稀疏,以及文本内容多类别共存引发的特征聚焦偏差,本文设计了一种基于数据拆分与迭代优化的数据优化方法(DOSI)。[方法/过程]该方法通过构建领域解耦的“一对多”分析架构,强化特定领域内的鉴别性特征表达,并引入自适应噪声抑制机制消除跨领域噪声。具体实施流程包含四个关键阶段:领域敏感特征词库构建、文本特征显著性检测、跨领域噪声过滤、增量式优化迭代,通过动态平衡噪声抑制与信息完整性需求,实现分类器性能的渐进式提升。[结果/结论]在上市公司经营业务文本分类任务中,经过两轮优化迭代,分类器准确率提升7.5%(56.40%→60.62%),Macro_F1指标增幅达25.2%(40.41%→50.58%),验证了该方法在细分领域文本分类场景中的有效性。

关键词:

非均衡数据, 文本分类, 数据优化, 特征选择