全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2809 5
2010-10-21
代码 会计截止日 事务所
000002 2005-12-31 毕马威华振会计师事务所
000002 2006-12-31 毕马威华振会计师事务所
000002 2007-12-31 毕马威华振会计师事务所
000002 2008-12-31 毕马威华振会计师事务所
000002 2009-12-31 毕马威华振会计师事务所
000005 2005-12-31 利安达信隆会计师事务所有限责任公司
000005 2006-12-31 利安达信隆会计师事务所
000005 2007-12-31 利安达信隆会计师事务所
000005 2008-12-31 深圳市鹏城会计师事务所有限公司
000005 2009-12-31 深圳鹏城会计师事务所


样本数据如上,现在想判断每一种股票在前后年份之间事务所是否有更改,请教各位如何写程序?事务所的名称不规范,同一个事务所可能有用全名的有用简称的。谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-10-21 16:48:34
我觉得难点在如何定义两个字符串是一个意义上的“事务所”
我的思路是把字符串中关于事务所,责任公司等意义的子串,和事务所的“名字”分开
只是思路,抛个砖......
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-10-22 09:01:58
现在的想法是把不同的事务所名称用sas整理出来,然后手工解决全名和简称问题(整理好后有150个不完全同名的事务所),再编码然后判断

不知道有没有更好的办法?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-11-7 16:27:22
我的想法是这样的:一般除了‘会计师’‘事务所’ 还有代表地区的字段以外,无论是简称还是全称都包括区别于其他的主要字段,进一步看,全称和简称之间大概有一个规律:就是简称中的所有字段,都包括在全称内(几乎),所以有以下处理办法:
1、用循环语句 按股票代码 转置,将同一种股票不同年份的obv变成var(这部分没写出来,呵呵);
2、用循环语句顺次比较相邻年份间是否相同;
主要用以下程序:
data a;
input a $6. +1 b$18. +1 c$12.;/*读数据*/
%let m=length (b);
%let n = length(c);
%let x= min(&m, &n);
d =&x;/*取最小值的字段长度*/
do t=1 to &m-1 by 2;
   do r =1 to &n-1 by 2;
     if substr(b,t,2)=substr(c,r,2)
           then u+1;/*显示相同字段数*/
        end;
end;
if u*2 =d then o =1; /如果较短变量的字段完全相等于较长字段,则o计数1,表示相邻年份间相等*/
datalines;
利安达 利安达会计师事务所 利安达事务所
;
proc print;
run;

现在就想到这里 呵呵,有不对的地方,别笑话。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-11-8 01:52:04
没办法,中国的金融数据就这德行。
你只能手动在Excel里先处理下同一个中介机构的名称可能涉及 括号的大小写啊,逗号,分隔符啊,空格啊,更为麻烦的是很多中介机构合并或更名,你得google来确定是不是同一个中介机构。通常上市公司关于改聘或续聘中介机构有PDF公告出来的的,偶尔会提及中介机构的更名事项。
如果你处理香港的,更头疼,有很多人名冠名的事务所,涉及“.”,若要求准确,只能手改。是个体力活。

如果用字符串相似度的计算算法来模糊匹配,SAS有相关函数,可以google,但要去掉 会计事务所/律师事务所等关键字。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-11-8 07:04:19
先对事务所变量做频数分析,然后生成一个合理的FORMAT。。。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群