上司突然笑道:其实,是专门甩给你这么大个数据的。
你:啊?为啥?
上司:想让你知道,别一天到晚拿到数据就上 Python搞,Pandas 处理几 GB 以内的小数据还搞地定,体验不到性能差异,但是像今天这么大的数据,Pandas 很难处理,内存吃光都不够用,电脑卡死,你就只能干瞪眼。
你:那怎么处理这些大数据?
上司不紧不慢道:其实这点数据不算大,顶多算 Large Data,要上到 Big Data 起码要到 TB 级别。由于算法和本地内存的限制,Pandas 在处理 Big Data 方面有自己的局限性。所以这么大的数据一般都用 Hadoop 或者 Spark 等工具来处理,同时Spark还有python的接口,可以在Spark平台上运行Python,速度杠杠的。