一个程序的比较(revisit)

jingju11

6487

收藏 2014-09-09

很多的时候程序的比较并不一目了然.结果正确, 运行高效, 句法简单, 一定的通用性等等, 往往可以作为非正式的评判标准. 如果说某些标准具备主观性, 其中的前两个,正确性和效率, 往往更加客观,更加关键.

这里以前论坛上的某个问题以及给出的解决方案.因为可能牵扯较大的数据和较多的数据循环, 我这里做了简单的比较. 当然,结果和看起来或者原以为并不完全相同.

结果正确: 三个程序给定的结果完全一致
效率: 通过运行时间来决定.因为其中的运行时间的差异非常明显, 所以并没有反复运行实验.但是结果在不同的PC 和环境上也许有一定的差异.
简洁通用: 因人而异,不做深入比较.

具体问题来源.( https://bbs.pinggu.org/thread-3174189-1-1.html)

现有数据如下, 三个column （title，authors(不同的name用|隔开），number_authors)
Title                   Authors                                                 Number_authors
Title 1             Name A | Name B                                              2
Title 2             Name A | Name B  | Name C                               3..
大概有20000个observations，其中
1. title是unique的
2. number_authors 取值从1-200.
现在想做的是，对每一个observation生成一系列variables（5个）：at_least_x_authors_repeat. X从1-5取整数值. 变量取值0或1也就是：at_least_1_authors_repeat； at_least_2_authors_repeat；at_least_3_authors_repeat；at_least_4_authors_repeat at_least_5_authors_repeat.
变量描述了在这组数据中有多少作者是重复的

方法 1- 一个DATA STEP

方法 2- 多个 SQL 过程

方法 3- 多个DATA STEP和SQL的混合.

复制代码

运行结果

N = 1,000

1=0.89100003242492 seconds

2=8.24699997901916 seconds

3=3.28099989891052 seconds

N = 5,000

1=021.744000196457 seconds

2=499.838999986648 seconds

3=017.079999923706 seconds

N =10,000

1=0088.73000001907 seconds

2=2230.13800001144 seconds

3=0033.89900016785 second

N =20,000

1=342.348000049591 seconds
2=000.000000000000 seconds(not available)
3=071.160000085831 seconds

N =50,000

1=2177.96100020408 seconds

2=0000.00000000000 seconds (not available)

3=0192.801999807357 seconds

如果想要比较结果,程序可以如下

复制代码

从结果来看,如果数据记录较少的时候(比如N=1,000), 三个程序的运行时间类似. 如果N =5000, 方法2 变得缓慢. 如果N =10,000, 方法2的运行时间至少20倍长.方法3的时间最短, 只有方法1 的1/2. 如果数据进一步增加至20,000, 方法2 因为时间过长,没有测试. 而方法3的效率凸现优势,只有方法1 的1 /5左右.N =50,000, 方法 3 的优势更加明显.

略做总结:

方法 1 是我的程序, 因为编写的思路和结构,似乎没有优化的可能性.如果数据量超过10,000, 运行比较缓慢.我猜想,如果N 超过100,000 程序几乎不可用. 我当时的思路是程序越简单越好.
方法 2 采用SQL过程.可以看得出, 许多人认为比较容易理解. 但是因为其中牵扯不等式的LEFT JOIN, 如果数据很大, 这一过程非常缓慢. 在SQL 里, SAS SQL 差不多效率是最低的,虽然在较新的版本里效率似乎有所改善.也就是说 ,如果这个程序不在SAS 里运行,或许效率要好的多. 当N 超过20,000 程序几乎不可用.
方法 3 看起来最复杂,但是效率最好, 尤其是在数据尺寸增大的时候. 其实程序是否复杂并不是关键,因为一旦程序确立并稳定下来,你不必要时时去阅读原程序.而效率就变得尤为关键重要.
从本题目的要求来看,显然方法3是最好的选择,因为起运行时间比其他的良种方案要快的多.

by JingJu(my blog)

Also a relevant link in my blog: http://blog.sina.com.cn/s/blog_a3a926360102v0w6.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

pobel

2014-9-9 08:18:56

京剧大哥很用心，佩服！

个人认为，方法2的亮点在于思路的巧妙。当时如果能想到这个方法，我就不会用方法3了。
只是在数据量大的时候，方法2的效率会受到那步LEFT JOIN的拖累。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

playmore

2014-9-9 09:22:34

京剧大哥nb
之前的问题我没有参与
现在这三个方法我就只能大概看懂第二个，其他的直接给跪了
我觉得这可能就是SAS型语法的一大问题，语法复杂，很多简单问题会复杂化，data步尤其如此

另外这个问题可以用矩阵运算解决，设有下面的矩阵
A    B    C    D    E
1 1    1
2 1    1    1
3          ...
4          ...
行(1,2,3,...)代表Title，列(A,B,C,...)代表Author，(m,n)处的元素等于1表示Title m有作者Name n。
则把每一行和其他所有行做下点乘，如1行乘2行为1*1+1*1+0*1=2，表示有2个作者同时在Title 1和Title 2出现，其他类似，最后整理下即可得到最后结果。这个方法的优点在于逻辑简单，代码也应该不复杂。只不过效率可能不高，问题的复杂度是m*(m-1)/2，和方法2的left join差不多。但是可以用稀疏矩阵进行存储和计算，再用个C写个矩阵的乘法会快很多。具体的代码就不写了，现在不太会用IML了，都转R了，呵呵。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-9 10:14:32

pobel 发表于 2014-9-9 08:18
京剧大哥很用心，佩服！

个人认为，方法2的亮点在于思路的巧妙。当时如果能想到这个方法，我就不会用方法 ...

方案二在sas里运行之效率更加低下。这个原始问题要求的记录数大概是 20，000左右。我估计在我的PC 上至少四个小时以上，几乎不可用。
京剧

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-9 10:29:20

playmore 发表于 2014-9-9 09:22
京剧大哥nb
之前的问题我没有参与
现在这三个方法我就只能大概看懂第二个，其他的直接给跪了

你提到的矩阵维度，应该是 [记录数] * [所有参与的作者数（unique）]. 我模拟的数据里仅有26个不同的作者。但是实际上这个数字应该很大，很可能比记录数还要多。不过你的建议有助于解释我的程序的计算方法。
类似你的点乘概念--- 用该行和其余行做点乘，然后取出那个最大的和sum(1*1, 1*1, 1*0, ...)，就是最多有几位同时的合作者。
京剧

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ziyenano

2014-9-9 14:08:42

哈哈，没想到在这还能看到我写的程序。
如果追求完美，效率方面来看，方法三一定是最好的了。
PS：在这个论坛上，pobel对data步的控制算是顶尖水平，赞一个。
其实当时写这个问题，就当玩游戏锻炼锻炼自己思维，压根也没
考虑效率的问题。
sql的好处，简单、结构化，你想到的东西很容易就转成SQL语言，
当然有利有弊，很多时候效率问题就没法规避。
我在sas敲SQL很大程度是图省事，可以原封不动的扔到数据库去
运行。
其实SAS的SQL运行效率还可以，并不比Oracle这些数据库差，只是很多
时候数据库是安装的服务器上的，SAS通常都是PC版，才造成这种错觉。
我以前跟朋友开玩笑，代码优化都是穷人干的事情，给我一台小型机，
我连not in 都敢直接写。
还有这个问题本身也是挺复杂的，我自己都快看不懂自己写的东西了。
最后，感谢京剧大哥细心地把这些东西整理出来比较！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

jingju11

2014-9-9 19:51:04

其实SAS的SQL运行效率还可以，并不比Oracle这些数据库差，只是很多
时候数据库是安装的服务器上的，SAS通常都是PC版，才造成这种错觉。

谢谢你的说明。一些观点我可以测试一下;
(1)sas on server may be faster than on PC
(2) performance of some database SQL than SAS sql

Jingju

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-10 01:23:21

jingju11 发表于 2014-9-9 19:51
谢谢你的说明。一些观点我可以测试一下;
(1)sas on server may be faster than on PC
(2) performanc ...

As of my test, some database SQL, such as teradata SQL, may be more efficient than SAS SQL, in some particular cases. The test was based on a left-join SQL in Method 2. The parameters were listed as per below:
n obs = 20,000
Resulted dataset records = 970,484,186
Resulted data file size = 59.254 GB
Time consumed:
SAS SQL = 4564 seconds(76'04'')
Teradata SQL= 688 seconds(11'28'')
This test is very pricy. I did not take further tests. To conclude, assume the server maintains its even and normal speed, the SAS/SQL code running in a SAS server is almost 7 times slow as the one running in teradata/SQL by the way of SAS SQL-passthrough. The efficiency gain for Teradata SQL should be significant, as my experience.

JingJu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-10 09:28:45

playmore 发表于 2014-9-9 09:22
京剧大哥nb
之前的问题我没有参与
现在这三个方法我就只能大概看懂第二个，其他的直接给跪了

你说的很多我都不是很懂。我今天试着用fcmp做了一下，你的思路很好。概括了如下：
A = ｛r[i,j]｝matrix i =1 ....n , j =1... c where n is number of rows (titles) and c is number of all distinct author names
and r[i,j] =1 if the author i is on jth of the list. otherwise 0.
for example, if all 10 distinct authors and for title1 have authors of 1,3, 4.
so the first row =[1 0 1 1 0 0 0 0 0 0], and so on.the computation is

M= A(AT), AT is the transpose of A
U= element multiplication (M, S) where S is a matrix with all 1’s except for 0’s on diagonal
L=UT, UT is the transpose of U
The maximum common authors for ith row = ith row maximum of L

JingJu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

playmore

2014-9-10 14:39:17

jingju11 发表于 2014-9-10 09:28
你说的很多我都不是很懂。我今天试着用fcmp做了一下，你的思路很好。概括了如下：
A = ｛r｝matrix i =1 ...

对，基本上就是这个算法
但我这个算法的问题是稀疏矩阵+矩阵乘法
直接用R的话，10000×10000基本上就是32位CPU+4G内存的上限了
除非用OpenBLAS之类的矩阵运算库自己写

SAS处理这个问题的好处是一行观测就是一个数据
没有冗余的数据
然后再用data步来做效率也很高
只不过data步写起来***，看起来更***
再加上什么array, call之类的，搞得想看懂比自己写还累

我觉得这个问题导致的结果就是可拿来重用并共享的宏十分稀少
一段设计精巧的data步代码，不但仅限于完成某一指定任务，而且限定于特定的表格结构
无法封装，不能继承
写完一段就扔，别人也很难看懂，也就更难在其上进行修改

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-11 07:21:17

playmore 发表于 2014-9-10 14:39
对，基本上就是这个算法
但我这个算法的问题是稀疏矩阵+矩阵乘法
直接用R的话，10000×10000基本上就是 ...

http://blog.sina.com.cn/s/blog_a3a926360102v0w6.html

Thank you for raising the question.
Sometimes we call it 'Curse of Dimensionality'. Because of it, we come accross some computation problems.
As my blog shown, the maximum matrix dimension cannot exceed 20,000 X 1,000 (basically commensurate with 3.2 GB in SAS) in this case, even though the code was submitted on server and the compuation is fairly simple as per below:

The run-time was compared between matrix (FCMP) and method 1(DATA).
when n =16,250, the matrix cannnot be computed because of its dimension. On the other hand, the compuation is very fast for using simple formula.

JingJu

http://blog.sina.com.cn/s/blog_a3a926360102v0w6.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

playmore

2014-9-11 08:28:30

jingju11 发表于 2014-9-11 07:21
http://blog.sina.com.cn/s/blog_a3a926360102v0w6.html

Thank you for raising the questi ...

多谢京剧大哥，
没有想到用fcmp里的array完成矩阵运算速度还挺快

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何必不淡定。

2014-9-11 16:57:58

mark xie xie louzhu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-12 10:32:31

playmore 发表于 2014-9-11 08:28
多谢京剧大哥，
没有想到用fcmp里的array完成矩阵运算速度还挺快

Someone points out that XXT matrix is symmetric and thus the last transpose is redundant. This is true. Moreover, we can read out cross product matrix from some procedures, such as reg or corr, directly.
JingJu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ilovekate

2014-9-12 10:45:58

这个实在是经典。赞一下。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-13 05:27:02

ilovekate 发表于 2014-9-12 10:45
这个实在是经典。赞一下。

Thanks.
This formula was more straightforward.

JingJu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-13 06:20:19

jingju11 发表于 2014-9-13 05:27
Thanks.
This formula was more straightforward.

这个主题探索至此也差不多了.非常感谢大家的参与和建议。在这里简单总结以下:
这个数据的特点是:较多的不同的书目,在每个书目之下, 作者的个数相对较少. 比如<20.

方法 1 & 2 因为方案本身的构建而局限其效率。当数据增大时,效率较差,尤其是在行数较大的情况之下.
方法论3 效率明显较好, 较大的行数并不过多影响效率.
利用巨阵来计算的方法值得探索.但是通常受制于巨阵的维度而造成对内存的过度消耗.
以下是时间消耗的对比：方法1/方法3。运行时间主要考虑最重要的因素。因此具备很大的近似型。图示的横轴表示记录数，竖轴表示方法1 和方法3 运行时间的比值的对数值。竖轴0 表示两种方法的运行时间相等(log(1) = 0)。不同的线条表示不同的列数（每个题目的最大作者数）。保持同样的列数，随着记录数的增大，方法1消耗更多的运行时间比例增大。较大的列数使得方法3的效率降低。如果列数增大到30以上，方法1的效率或许高于方法3。如果列数超过35，方法3 几乎无法计算（2**30是个很大的数字）。

京剧

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何必不淡定。

2014-9-15 11:37:25

谢谢楼主，对于method2，我提出一点我的疑问。
我觉得这个算法计算的cnt是任意两个不同title下相同name的个数，所以最后的max(cnt)应该是在两个不同title下存在最多相同的name时cnt的个数，所以计算的应该是两个title（titleA和titleB）之间作者重复的最大数；而这个问题要求却是有每个title多少作者重复，所以当存在titleC和titleA重复而与titleB不重复时，这个算法就可能不够准确。
不知道我的理解哪里存在漏洞，请楼主指正。谢谢：）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-16 00:51:02

何必不淡定。发表于 2014-9-15 11:37
谢谢楼主，对于method2，我提出一点我的疑问。
我觉得这个算法计算的cnt是任意两个不同title下相同name的个 ...

原题的要求是:对于某个TITLE的作者里,在其他TITLE里再次合作的最大人数.
title1 have authors A B C.
title2 have authors A B C D.
title3 have authors A B E F.
then for title1, we look at title2 first. all A B C show at title2 then max-common-authors = 3; then we llook at title1's authors in title3, the number is 2 (A & B). so the result = max(3, 2) = 3;
same for title2, the results =max(3 in title1, 2 in title3) = 3;
for title3, the results =max(2 in title1, 2 in title2) = 2.
...
所以方法2应该是正确的.在所有的方法里,只有方法3 的思路略有不同.方法1和方法2的不同点在于方法1使用数据步,方法2 使用sql.而在距阵运算里,也是在找这个最大重复的值.因此这些方法的效率较差因为:假如10000个titles , 针对某个title ,必须要在 (10000-1)个title里寻找,切不说每个title包含不同的作者,增加了更多的循环.方法3先对title里的所有作者做组合.如果作者数较少,就比较快速.但是如果某个题目包含30个作者(虽然可能性不大),所造成的组合数是2**30-1 =1,000,000,000.这个程序也将不胜重负.
京剧
JingJu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何必不淡定。

2014-9-16 09:15:57

jingju11 发表于 2014-9-16 00:51
原题的要求是:对于某个TITLE的作者里,在其他TITLE里再次合作的最大人数.
title1 have authors A B C.
...

非常感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suzhzh

2014-9-16 12:44:41

Will read this carefully.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

suzhzh

2014-9-16 12:47:28

Will read carefully later.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-9-19 03:15:46

suzhzh 发表于 2014-9-16 12:47
Will read carefully later.

thanks. I think this is a good example to present for the readers. JingJu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-10-4 21:50:06

hope more people share the idea. JingJu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yqfbest

2014-10-7 10:18:07

完全看不懂

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-10-9 01:01:25

yqfbest 发表于 2014-10-7 10:18
完全看不懂

Yeah. It should be really hard to you considering you are new to SAS.
Jingju

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yqfbest

2014-10-13 23:22:26

jingju11 发表于 2014-10-9 01:01
Yeah. It should be really hard to you considering you are new to SAS.
Jingju

自学的sas 请多指教

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2014-10-15 19:44:06

互相学习。京剧

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dkyyy

2014-10-29 09:31:18

高山仰止，景行行止。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群