使用随机森林(SVM)预测动物的收养
在全国各地,动物收容所全天候工作,以帮助宠物获救。在大多数情况下,人们认为动物的收养主要是由直觉和情感驱动的-一个家庭进来,坠入爱河,然后欢迎一只新宠物进入他们的家。
正如这里的读者可能会怀疑的那样,如果您有数据,您会发现故事的内容更多。幸运的是,奥斯丁动物收容所已经公开了他们的动物救助数据。它们是美国最大的免杀动物收容所,每年收容18
Thinkful数据科学训练营的学生乔安·林(Joanne Lin) 决定加入并找到能帮助避难所救出更多宠物的见识。通过分析近80
哪些功能最能预测动物是否被领养
哪种动物的名字最适合收养
一周中的哪些日子带来最多的采用率
分别是最“可采用”的狗和猫
深入研究数据并尝试了解每只动物的身体特征后,很明显,数据很有趣,需要一些简单的特征工程。
原始数据集
名称
种类
品种
描述
萨迪
犬类
达尔马提亚
白色斑点
幸运
犬类
边境牧羊犬
黑色双色
吹笛者
犬类
澳大利亚梗
红貂
更细
名称
种类
品种
外套颜色
外套图案
萨迪
犬类
达尔马提亚
白色
斑
幸运
犬类
边境牧羊犬
黑色
双色
吹笛者
犬类
澳大利亚梗
红
黑貂
为了清楚起见,我们在这些表中省略了一些列,包括年龄以及宠物是否已被绝育/付款,表示为“完好无损”。然后,乔安妮(Joanne)通过随机森林(Random Forest)来运行这些结果,以确定哪些宠物属性最能预测收养,因此她与随机森林(Random Forest)合作。
对于猫:
对于狗:
对于猫而言,最重要的三个因素是猫是否被绝育或绝育,猫的年龄以及所穿的外套的类型。谈到狗,收养者也关心年龄和外衣,但排名第一的因素是幼犬的品种。有趣的是,养猫的人似乎更在乎猫的名字。
为了定义“可采用”与“不可采用”之间的界限,Joanna还在支持向量机上工作。这方面有很多东西,我强烈建议您直接进入 GitHub上的Joanne笔记本,在这里您可以看到所有代码-但以下是一个快速的视觉效果,可以让您大致了解她发现的内容:
有了这些见识,庇护所可以优先考虑更好地推动宠物的收养。无论他们是要分配更多预算来饲养或绝育他们的动物,还是要确保他们给每只潜在的宠物(或至少是猫)起名,还是要确保他们周末都有额外的收养人员,我们都希望看到数据驱动收容宠物的更好生活。
题库