数说两会|1978年到2024年政府工作报告关键词盘点

数说两会|1978年到2024年政府工作报告关键词盘点
2024年03月05日 12:37 新浪网 作者 澎湃新闻
缩小字体 放大字体 收藏 微博 微信 0
来源:澎湃新闻记者 赵佐燕 王亚赛

  2024年3月5日上午,十四届全国人大二次会议在人民大会堂举行开幕会。国务院总理李强代表国务院,向十四届全国人大二次会议作政府工作报告。

  澎湃新闻从中国政府网上,整理了1978年至2024年共计47份《政府工作报告》,通过文本挖掘算法,一同解锁中国发展背后的政策密码。

  一份政府工作报告一般分为两个部分:对过去的回顾总结、对未来工作的发展部署。

  47年间,政府对未来的发展布局有何变化?澎湃新闻分析了在发展部署部分,关键词共现词的变化情况。

  不难发现,近些年,一些新的共现词频繁出现:1978年至2017年的政府工作报告,和“发展”共同高频相邻出现的,是“经济”“社会”。然而,从2018年政府工作报告开始,“高质量”成为了“发展”最大的关键词。

  不仅如此,“建设”的共现词,从早些年的“现代化建设”“经济建设”,发展到进入21世纪的“基础设施建设”,再到如今的“政府建设”。2024年政府工作报告提出,“全面加强政府建设,大力提升治理效能”。

  澎湃新闻也统计了47份《政府工作报告》中的常青词汇。结果显示,“发展”、“建设”以及“经济”等词语在过去47年中一直高频出现。

  还有部分词语愈发频繁地出现在《政府工作报告》中,例如“政策”“保障”。因其增长趋势,澎湃新闻将此类词语称为“喇叭形词语”。近些年新的喇叭形词语,还包括“高质量”“数字”“人工智能”。

  那么,2024年的政府工作报告有哪些新词汇?澎湃新闻找到了一些今年提到,但过去五年(2019年-2023年)未曾提及的词语,例如“基础教育”“市场秩序”“质量第一”。

分析方法:

  1.本文所有原始文本材料来自中国政府网1978年至2024年政府工作报告。

  2.本文使用jieba分词(https://github.com/fxsjy/jieba/)。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。

  3.为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。

  4.在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2024年政府工作报告文本。

  澎湃新闻记者 舒怡尔 对文本有所贡献

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。
政府工作报告 全国两会 全国人大
来自于:上海
权利保护声明页/Notice to Right Holders