5# Bridgenc 这个地方的key=a||"-"||b是拼接字符串。
然后用a-b这个新的字符串作为唯一的分类符。
这个想法太巧妙了。
这样的话,这个新变量的种类,无论如何不会超过观测值,就避免了a×b太大的问题。
非常感谢。
我又想了一下,可能这种解决方案和适合我这种需求,对于概率没有任何计算要求,单纯只是数一下个数。
如果要求行和列的概率和,或者需要各行或各列的累积概率,还得用table表,那样可能只能动用数据库了。
测试的结果,还是不成功,这次报错是memory不足了。可能因为我的a和b都是字符串,而且其中一个的长度还比较长的原因吧。
我看了一下option,memsize大约是4g,已经设为最大了。
但是我自己的机器,是4g的内存,外加虚拟内存,应该可以设得比这个大啊,不知道为啥。
我看别人的,貌似可以把memsize设的比内存大很多,需要时甚至可以设定为5倍内存,当然硬盘得足够大,就是不知道他们怎么做到的。。。