分词、词表、核心词典、停用词、敏感词等
本核心词表是由多个来源整理,不限于百科,学术论文期刊,各类网站等,此词表以中图分类为基础分为7个大类,75个小类,约有1300万左右记录。适用于词典分词,机器学分词、词性标注等常见文本挖掘。
一级分类名称 | 词表数量 | 备注 |
---|---|---|
学科 | 329w | 19个子类 |
行业技术 | 480w | 24个子类 |
艺术 | 46w | 3个子类 |
科学文化教育 | 246w | 13个子类 |
互联网 | 57w | 5个子类 |
休闲娱乐 | 131w | 8个子类 |
其他 | 31w | 3个子类 |
医学(98.5w)、哲学(15w)、美学(8k)、人口学(3.1w)、伦理学(2.3w)、天文学(15.2w)、心理学(4.7w)、思维学(2.4k)、民族学(2.2w)、社会学(18.1w)、管理学(7w)、统计学(2.6w)、逻辑性(4.1k)、劳动学(1.3w)、社会科学(50.7w)、自然科学(35.1w)、人文科学(65.8w)、马列毛邓(1.7w)、宗教(4.4w)
农业(37.9w)、冶金(6w)、化工(26w)、建筑(35.6w)、生物(7.8w)、矿业(11.3w)、纺织(5.3w)、经济(68.6w)、金属(16.2w)、食品(11.8w)、原子能(3.4w)、机器人(2w)、交通(18.6w)、工业技术(108.7w)、机器仪表(13.5w)、水利工程(11.1w)、环境保护(14.7w)、电信技术(27.3w)、电工技术(20.8w)、能源动力(6.4w)、航空航天(5.4w)、遥感技术(8.7k)、石油天然气(10.1w)、自动化技术(10.3w)
艺术(27w)、工艺品(9.4w)、音乐舞蹈戏曲(4k)
军事(6.9w)、教育(68.5w)、文化(1.5w)、文学(25.8w)、科学(7.4w)、数理化(18.6w)、世界文化(5.8w)、历史人物(7.7w)、历史地理(23.2w)、政治法律(36w)、知识(29w)、语言文字(11.4w)
计算机技术(35w)、计算机软件(10w)、计算机网络(7.8w)、微型计算机(2.2w)、人工智能(2.1w)
旅行(1.9w)、摄影(4.9w)、烹饪食谱(1.5w)、体育(16.5w)、小说(6.7k)、美容美发(1.8w)、游戏(51w)、娱乐(52.7w)
汽车(1.1k)、房产(1.5k)、城市(31w)
词表每一行按空格分成三列,分别为词汇、数量、词性。 词表排序:首字母排序、相同字母按长度排序,方面后续整理。 如下表格:
词汇 | 数量 | 词性 |
---|---|---|
暗语 | 138 | n |
暗示性 | 10 | nz |
暗示法 | 35 | nz |
暗渡陈仓 | 10 | i |
暗杀 | 44 | vn |
暗杀活动 | 18 | nz |
暗杀行动 | 8 | nz |
该词表定期整理更新,包括增加分类,增加词汇数量,人工排除一些不合理的分类词汇等。
由于该词表的挖掘与整理需要大量人力、精力且非常耗时,所以此词表暂不提供下载地址,还请谅解,如有需要的可以联系作者QQ:1773498686。
免费词表
300万词表下载 密码:m6t0
千万词表下载 密码:gtl4
该词表不同于网络上的几万,十几万,百万的词表,网络上的词表杂乱很难有效的整理和分类,缺失专业词汇、行业词汇比较多,对于基于词典的分词法,可能分不出有效的词汇,影响搜索召回等。当然该词表也在不断的完善整理中,有些分类会包含一些不合理的词汇。