01、数据简介
根据任晓松、孙莎、马茜(2024)提出的方法体系,投资者情绪指标的构建可遵循以下系统化流程:
步骤一数据获取:定向采集2007至2024年间财经网络社区(包括股票主题贴吧及行业论坛)发布的全部股票相关帖子,提取发帖人标识、发布时间、标题文本、阅读量等结构化信息。
步骤二文本预处理:对采集的原始文本实施系列净化操作:首先过滤无效及重复内容,随后采用jieba分词工具进行中文分词处理,剔除通用及领域特定停用词,最终通过TF-IDF算法将文本数据转换为机器可识别的数值向量。
步骤三情感分类与日度情绪计算:采用朴素贝叶斯分类模型将帖子划分为乐观、中性、悲观三类情感倾向。针对上市企业i,依据第n日乐观帖子数(posi,n)与悲观帖子数(negi,n)构建情绪因子:
smi,n=ln(1+negi,n1+posi,n)
该公式通过加1平滑处理保障数值稳定性,对数变换实现数据分布规范化。
步骤四年度情绪指标构建:以自然年为观测周期,对周期内所有交易日的情绪因子smi,n进行算术平均,形成衡量企业i在第t年投资者情绪水平的综合指标senti,t,有效捕捉市场参与者的中长期情感特征。
该指标体系通过整合网络文本大数据与机器学习技术,为量化分析投资者心理偏差对资本市场的影响提供可操作的测量工具。
数据名称:上市公司-投资者情绪数据
数据年份:2007-2024年
数据整理:众鲤数据网
02、相关数据
股票代码、年份、 s_in、sent_(i,t)。
03、数据截图

请先 !