在进行机器学习相关内容实践的时候,给定练习的例子中,输入数据集都是已经被准备好的。但是在现实的特征工程当中,输入向量到底应该以何种形式输入呢?目前好像这种讨论比较少,都是在教授
机器学习的一些套路的东西。我想问的就是,相对于每一个输入的x,它的具体形式是什么?比如如果一个特征向量中包含一个字符串的话,那么这个字符串往往以one hot形式编码,那么这个编码在输入向量中如何体现呢?
比如这么一个向量:上海,租金:10000,平米数:60。使用one hot编码 001来为上海编码,那么这个特征向量抛开缩放,应该是这种形式的3维向量吗?[001,10000,60]还是应该以稀疏的形式[0,0,1,10000,60]这样的形式呈现?
再比如一个时间序列的例子,如果一个向量中包含一个连续的时间序列,它的表达形式是什么样的呢?比如它包含日期,波动率,成交量三个信息,那么它的输入形式是否可以是[[日期1,波动率1,成交量1],[日期2,波动率2,成交量2],[日期3,波动率3,成交量3]]这样复杂的多维度形式。还是只能以[日期1,波动率1,成交量1,日期2,波动率2,成交量2,日期3,波动率3,成交量3]这样连续的形式输入?
有实操过特征工程的小伙伴,可不可以帮忙上车呀?