一个简单的政策和新闻文本爬取以及分析框架

目前实现的功能有：谷歌新闻按月度爬取，基于GNE提取正文国务院政策文件库政策文本爬取

单个文本的分词（基于HANLP）以及去停用（基于jieba和哈工大停用词库）多文本预处理(两种方法：一种基于HanLP，不外挂词典；一种基于jieba，外挂词典) 基于Word2Vec模型的能源政策词典扩充（基于维基百科中文数据和爬取到的政策语料，训练了一个Word2Vec模型）

main.py: 政策文本list获取 full_text: 政策文本全文获取

monthlynews.py: 按月度获取谷歌新闻

preprocessing：预处理（分词+去停用）

news_full_text_high_performance: 并发获取新闻正文

cut_jieba.py :基于外挂词库(搜狗财经词库+爬取能源常用词)的jieba分词

word2wec_train(test).py: Word2Vec模型的训练与测试，如果要在本地运行，首先要使用此项目：https://github.com/lzhenboy/word2vec-Chinese 完成中文维基百科的预处理（不包括分词），然后使用perprocessing对维基百科语料分词。之后将两种语料合并后训练即可。

NEXT：基于pre-trained-model的embeddings 语句级情感分析篇章级情感分析（embeddings+FNN（RF，SVM））

Reference： https://github.com/lzhenboy/word2vec-Chinese

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Files

README.md

Latest commit

History

README.md

File metadata and controls