這就是所謂的向量。向量,也就是一組數字,之所以方便,在於它是電腦原生的語言。如果讀者想將資料轉成電腦能夠運算、處理、並能應用機器學習的形式,一組數字即為正確選擇。所以任何資訊在經過演算法處理前,都會先被轉換成一組數字。就連 「今天是週二」這個概念,我們也可以利用向量表示。
要表達這類的資訊,我們只要先在向量中包含所有可能的值,也就是週一到週日,再為每個值賦予特定的數字,將週二設為 1(Boolean True),其他日子設為 0(Boolean False)。這種格式被稱作 one-hot 編碼(或譯作「獨熱編碼」),而這種包含一連串 0、只有一個 1 的向量在資料分析中也很常見。