全部版块 我的主页
论坛 经济学人 二区 外文文献专区
890 16
2022-04-24
英文标题:
《A Comparison of Statistical and Machine Learning Algorithms for
  Predicting Rents in the San Francisco Bay Area》
---
作者:
Paul Waddell and Arezoo Besharati-Zadeh
---
最新提交年份:
2020
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
英文摘要:
  Urban transportation and land use models have used theory and statistical modeling methods to develop model systems that are useful in planning applications. Machine learning methods have been considered too \'black box\', lacking interpretability, and their use has been limited within the land use and transportation modeling literature. We present a use case in which predictive accuracy is of primary importance, and compare the use of random forest regression to multiple regression using ordinary least squares, to predict rents per square foot in the San Francisco Bay Area using a large volume of rental listings scraped from the Craigslist website. We find that we are able to obtain useful predictions from both models using almost exclusively local accessibility variables, though the predictive accuracy of the random forest model is substantially higher.
---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-24 17:30:18
预测旧金山湾租金的统计和机器学习算法的比较Waddellwaddell@berkeley.eduArezooBesharati Zadeharezoo。bz@berkeley.eduDecember2020年1月1日抽象的城市交通和土地利用模型已经使用了理论和统计建模方法来开发在规划应用中有用的模型系统。机器学习方法也被视为“黑匣子”,缺乏可解释性,其使用在土地利用和交通建模文献中受到限制。我们提出了一个用例预测精度是最重要的,并比较使用随机森林回归到多元回归使用普通最小二乘法,预测租金每平方英尺在旧金山湾地区使用大量出租出租从Craigslist网站。我们发现,尽管随机森林模型的预测精度要高得多,但我们几乎完全使用局部可达性变量,能够从这两个模型中获得有用的预测。关键词:建模、特征、机器学习、随机森林1简介城市交通和土地利用模型的发展传统上广泛依赖领域知识、理论和统计方法,如多元回归和离散选择模型。尽管机器学习方法已经存在多年,并被证明比多元回归等统计模型产生更准确的预测,但它们在城市建模文献中并未被广泛采用。其中一个主要原因是,在使用统计模型的研究中(无论是频点模型还是贝叶斯模型),应用程序的动机通常是需要能够在领域理论的背景下解释模型的系数及其符号和意义。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-24 17:30:24
相比之下,习惯于统计建模范式的研究人员一直对使用神经网络等机器学习方法开发的模型缺乏可解释性感到担忧。此外,为规划或政策应用开发的模型通常是出于对不同政策投入的潜在影响进行反事实分析的需要,以便对政策进行事前评估。这需要一定程度的因果推理,或者至少需要一个具有理论结构的模型,研究者可以认为该模型适合于反事实分析。相比之下,机器学习方法再次强调最大化预测准确性,而不是针对政策或规划的反事实分析。在本文中,我们研究了一个适合使用机器学习方法的用例,因为预测主要用于引导结构模型。该应用程序是租金的特征建模,被用作一个模型的起始值,该模型是对住房需求和供应的结构性微观模拟,并包含一个短期市场清算组件,该组件调整价格,直到住房需求清空所有子市场——这意味着预测需求小于或等于所有子市场的可用供应。为此,获得尽可能准确的租金或价格初始预测是很有价值的,因为该预测值将影响需求预测,而价格或租金预测不佳将产生较低质量的需求预测。如果需求模型的估计参数在住房价格和便利设施方面足够稳健,那么人们可能希望市场清算算法能够调整价格,以更准确地反映真实需求。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-24 17:30:30
但在价格预测不佳的情况下,人们可能不太相信需求模型的估计参数具有足够的鲁棒性。更准确的价格和租金预测应有助于实现需求模型的稳健估计结果,以及市场清算算法的更高效收敛。我们开发了每平方英尺租金的特征回归模型,首先使用普通最小二乘回归[8],然后使用随机森林回归,这是机器学习中的一种决策树方法[4,3]。关于住房价格特征建模的文献非常丰富,至少可以追溯到Griliches在汽车市场[9]上的工作,以及对住房租金建模的早期应用[7]。享乐建模的理论公式通常由Rosen[13]提出,并以Encaster的消费者需求理论为基础[11]。以前也曾使用随机森林回归对房价和租金进行过检查,并与多元回归进行了比较,例如在斯洛文尼亚卢布尔雅那[5],还可以对多元回归和随机森林回归进行更广泛的比较,以评估变量的重要性[10]。我们的论文有助于在土地利用和交通建模的背景下,利用随机森林等机器学习方法分析房价和租金的新兴文献。使用自愿地理信息FrimaRigsLead租赁列表也是很新颖的,利用先前的工作来清理出租房租(2)。2个案例研究和数据。旧金山湾的这一领域,人口超过七百万,涵盖了九个县的一百多个市镇。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-24 17:30:37
它是硅谷的所在地,在一定程度上得益于其强大的技术部门,它是美国最昂贵的大都市住宅市场。表1:剔除异常值后的变量统计结果变量计数平均标准最小值25%50%75%maxrent sqft 363010.0 3.0 1.0 0 0.0 2.0 3.0 4.0 11.0平方英尺每单位363010.0 994.0 430.0 212.0 710.0 904.0 1150.0 3600.0单位500步行363010.0 664.0 0 0 0 193.0 437.0 876.0 2317.0平方英尺单位500步行363010.0.0 1455.0 712.0.0 1050.0.0.0 3600.00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3010.0 165285.0 117970.0 0.00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 77819.0.0 37199.0 93097.0175019.0 282688.02.1数据来源在本研究中,我们收集了2016年11月至2018年7月的Craigslist租赁清单,并对数据进行了过滤和清理,采用了[2]中使用的方法。数据收集和清理的结果产生了超过35万份租赁清单,其中包括挂牌日期、位置(纬度、经度)、租金、面积、卧室数量和浴室数量等信息。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-24 17:30:43
由于该项目的目标是生成一个租赁模型,该模型可用于在建筑层面对湾区房地产市场进行综合微观模拟,因此我们仅使用了房源中的位置、租金和平方英尺信息。为了增强列表属性,我们开发了一系列位置属性,并将它们与列表数据相关联。我们使用代表步行网络的街道网络和包含三级街道和高容量道路的驾驶网络来测量可达性,使用OSMNX库[1]来创建和清理网络,使用Pandana库[6]来计算局部可达性测量。我们使用Synthpop(一个改编自PopGen[16]的文库)开发了一个合成群体。从大都会交通委员会获得了9县湾区的地块、建筑和地址就业数据。我们在步行和驾车网络上计算了一系列本地化的可达性度量,以提供本地化的和更具区域性的上下文度量。每个清单都被分配到两个网络上最靠近的节点,每个地块和建筑都被类似地分配到两个网络上最近的节点。局部测量通常在500米范围内作为网络距离计算,或者作为简单的总和,或者作为感兴趣变量的平均值。2.2变量从建筑物数据库中,我们计算了包含住宅单元的建筑物的每个住宅单元的平均住宅平方英尺。我们使用了综合人口中家庭的以下属性:家庭收入、家庭规模、户主年龄、是否有子女、户主种族,以及户主是否为西班牙裔的指标。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群