hallo everyone,
现在有个比较棘手的问题。我有一批数据 简单的说就事600条道路的percentile data 每条道路的数据为每隔5%有个一个数据,比如:
5th,10th,... 95th
10min,12min,...30min,
就是如果在这条路travel 100 次的话 有5次的travel time 是低于10分钟,10次低于12分钟...
然后我想用这个数据来找出每条道路的出行时间的分布函数,比如用ks test, ad test or chi-sqaure test, 但我现在的疑虑是因为只有19个数据点 用来做goodness of fit test 肯定是太少了,但我又不能一常规的方法来增加数据量。有人知道可以不可以用比如说随机数的方法啦扩大数据量 比如我在5%和10%之间即10min到12min之间随机产生几个数 当然肯定是在10-12 之间的了。但是随机数一般也是有一定的分布函数的。 这里是为了找出出行时间的分布函数 所以 我就不确定可不可以这样来做。 我能想到另外一种方法就是用插值,这样就不会依赖于某个函数。 但是我不确定这样可以不可以, 并且一直找不到理论依据。
有人知道应该怎样做么?或者可以肯定的说不可以这样来增加数据量?
提前谢过了 :-)