期刊信息
刊名: 世界科学技术-中医药现代化
主办:  中科院科技政策与管理科学研究所;中国高技术产业发展促进会
周期:  月刊
出版地:北京市
语种:  中文
开本:  大16开
ISSN: 1674-3849
CN:   11-5699/R
邮发代号: 2-534
复合影响因子: 0.786
综合影响因子: 0.473

历史沿革:
现用刊名:世界科学技术-中医药现代化
曾用刊名:世界科学技术-中药现代化;世界科学技术
创刊时间:1999

核心期刊:
中文核心期刊(2011)
当前位置:首页 > 期刊导读 > 2015 > 01 >

中文专利文档关键词自动提取方法研究进展

作者: 马运运 [1,2] ; 孙志一 [2,3] ; 刘海波 [1,2] ; 彭勇 [1,2]

摘要:专利是一种包含学术、商业、法律等信息的科技文献,记录了大量新颖、实用的研究成果,近年来关注度不断提高。利用共词分析、文本聚类等方法对专利文献进行信息分析时,往往需要借助关键词提取技术达到降低数据复杂度、过滤噪声的目的。关键词提取技术多数基于统计规律。本文对基于词频、关联信息和多特征的关键词提取方法研究进展进行了总结,介绍了常用的分别以TF-IDF、熵、词汇链、Text Rank、遗传算法、决策树学习、朴素贝叶斯分类器、支持向量机等为主导的方法。另外,本文还总结了在专利文档关键词提取中可能用到的词频、位置、语义、关联、自身等方面的特征。实际应用中,关键词自动提取技术可作为一种有力的辅助手段,降低数据处理过程中的人力和时间成本。


关键字: 中文专利文档 关键词提取 TF-IDF 关联信息 机器学习


上一篇:天士力公司国际化战略与海外专利布局分析
下一篇:按市场机制重构中药材GAP认证体系II