如何获取区块链数据。使用MATLAB软件进行文本检索,获取上市公司年报中”区块链“词频数。
文件中为EXCEL文件一份。数据格式如下:
%提取文本%
%下载%
%读取
FindText={
'区块链'
'区块链技术'
'区块链会计'
'区块链审计'
'区块链专利'
'区块链应用'
'区块链实施'
'区块链研发'
'区块链核算'
}
ReportWrongNum=[];
m=0;
%词频统计
load('ReportWrongNum.mat')
load('TextNum.mat')
m=length(ReportWrongNum)
tic
for i=length(TextNum)+1:length(LinkData.Pdfweb)
try
path=strcat('D:\新建文件夹\迅雷下载\学术\文本相关\wind年报处理\正常报告\',string(LinkData.Code(i,1)),num2str(string(LinkData.Year(i,1))),'年年报.pdf');
ReportText=extractFileText(path);
ReportText=regexprep(ReportText,'\n','');
ReportText=regexprep(ReportText,' ','');
TextNum(i,:)=cellfun(@(x) length(strfind(ReportText,string(x))),FindText);
toc
fprintf(['第',num2str(i),'处理完成'])
catch
m=m+1;
ReportWrongNum(m,1)=i;
filename_ori=strcat('D:\新建文件夹\迅雷下载\学术\文本相关\wind年报处理\正常报告\',string(LinkData.Code(i,1)),num2str(string(LinkData.Year(i,1))),'年年报.pdf');
filename_new=strcat('D:\新建文件夹\迅雷下载\学术\文本相关\wind年报处理\待解密报告\',string(LinkData.Code(i,1)),num2str(string(LinkData.Year(i,1))),'年年报.pdf');
movefile(filename_ori,filename_new);
end
end
save('ReportWrongNum.mat','ReportWrongNum');
save('TextNum.mat','TextNum');
writetable(LinkData,'区块链统计.xlsx')