01、数据介绍
从巨潮资讯网抓取沪深A股上市公司1999-2023年度报告,利用OCR转换为结构化TXT文本。对文本进行清洗剔除非中文内容及冗余字符,采用Jieba中文分词模块进行文本切分,保留有效语义单元。
基于国内外权威研究确定风险与供应链领域核心种子词词典构建与语义扩展,运用Word2Vec模型计算种子词余弦相似度,挖掘上下文关联的近义词群,结合词频统计与人工校验,确保词典覆盖度与语义准确性。
采用共现频率分析法,量化供应链词汇与风险词汇在文本窗口内的共现频次。
本文测算供应链词汇与风险词汇出现在上下文15词内的频次作为主要的核心解释变量,在稳健性中,以上下文5词、10词、20词进行检验。为了使回归结果更加直观,本文将供应链风险感知指标数值乘100。对于量纲的处理不影响回归结果显著性。
数据名称:供应链风险感知、企业风险感知
数据整理:众鲤数据网
数据年份:1999-2023年
02、数据指标
证券代码 年份 总词数 基础Risk指标(5词窗口) 扩展Risk指标(5词窗口) 基础Risk指标(10词窗口) 扩展Risk指标(10词窗口) 基础Risk指标(15词窗口) 扩展Risk指标(15词窗口) 基础Risk指标(20词窗口) 扩展Risk指标(20词窗口)
03、数据截图

请先
!