全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1206 16
2022-04-20
摘要翻译:
新房地产开发的影响与其人口分布(家庭类型和组成、收入、社会人口统计)密切相关,这些分布取决于住宅类型、价格、位置和楼层等方面。本文提出了一种基于机器学习的方法来建模在较大的社区/公寓设置中即将开发的新建筑的人口分布。我们使用来自越南河内房地产开发项目Ecopark Township的真实数据集,在那里我们研究了深度生成模型文献中的两种机器学习算法来创建合成代理群体:条件变分自动编码器(CVAE)和条件生成对抗网络(CGAN)。大量的实验研究表明,CVAE模型在估计新房地产开发项目人口分布方面优于经验分布模型和CGAN模型。
---
英文标题:
《Population synthesis for urban resident modeling using deep generative
  models》
---
作者:
Martin Johnsen, Oliver Brandt, Sergio Garrido, Francisco C. Pereira
---
最新提交年份:
2020
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
英文摘要:
  The impacts of new real estate developments are strongly associated to its population distribution (types and compositions of households, incomes, social demographics) conditioned on aspects such as dwelling typology, price, location, and floor level. This paper presents a Machine Learning based method to model the population distribution of upcoming developments of new buildings within larger neighborhood/condo settings.   We use a real data set from Ecopark Township, a real estate development project in Hanoi, Vietnam, where we study two machine learning algorithms from the deep generative models literature to create a population of synthetic agents: Conditional Variational Auto-Encoder (CVAE) and Conditional Generative Adversarial Networks (CGAN). A large experimental study was performed, showing that the CVAE outperforms both the empirical distribution, a non-trivial baseline model, and the CGAN in estimating the population distribution of new real estate development projects.
---
PDF下载:
-->
English_Paper.pdf
大小:(1.6 MB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-20 21:56:31
使用deep generativemodelsMartin Johnsen*a,Oliver Brandt*a,Sergio Garridoaand Francisco C.Pereira**技术、管理和经济学院,丹麦工业大学,DTU,2800 kgs。新房地产开发的影响与它的人口分布(家庭类型和组成、收入、社会人口统计)密切相关,这些因素取决于住宅类型、价格、位置和居住水平。本文提出了一种基于机器学习的方法来建立大型社区/公寓小区内即将开发的新建筑的人口分布模型。我们使用越南河内的一个房地产开发项目Ecopark Township的真实数据集,在那里我们研究了深度生成模型文献中的两种机器学习算法来创建合成Agent的人口:条件变分自动编码器(CVAE)和条件生成对抗网络(CGAN)。进行了大量的实验研究,表明CVAE在估计新的实际est ate发展项目的总体分布方面优于经验分布(一个非平凡的基线模型)和CGANin。引言可持续发展决策的一个重要组成部分是预测长期相互作用的影响,如政策、基础设施投资和新社区地区。特别是应用于交通、社会学和生态学等研究领域的基于agent的模型(ABM)模拟器,其优点在于模拟可以再现agent(如工作地点决策)和agent群体(如Traàc·C·科诺)之间的复杂交互和决策链。在绝大多数情况下,ABMs以大的spa背景(如城市、地区、国家)为目标,从而在更高的分辨率水平上考虑粗糙的表示。对于ex-ample,代理的家乡位置最多在区域级别表示,而不是指定的建筑位置。对于较粗略的区域/城市一级的政策和投资,例如规划可持续的ur-ban能源发展[32],这是远远不够的,但对于规划规模小得多的大型投资来说,这是不够的。从房地产开发和基础设施规划的角度来看,了解每个建筑的具体人口,以及他们对资源、流动性和空间的使用情况成为必要。了解人口的发展及其特征,其主要目的是为人民群众提供适当的生活必需品。在交通研究[35]和经济研究[12]中,良好的服务水平已经被证明可以改善生活质量。在这项工作中,我们重点关注ABMS的基本步骤:人口综合,它包括准确地<这些作者对这项工作的贡献相等<<相应的作者:为研究领域的人口分布建模。具体来说,我们侧重于房地产项目开发水平。这意味着,在实际中,我们必须在非常详细的水平上综合规模因素,而不是考虑到例如房地产类型和住房结构的特征。正如城市模型一样,将周围的AR-EA视为外生的(例如其他城市、地区、国家),我们将孤立地考虑我们的研究区域,即我们不会考虑同一地区的其他地区,因此忽略了房地产市场的总体供求。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-20 21:56:37
虽然这最终将是最稳健和精确的方法,因为它解释了所有系统的电子商务,但由于我们研究地区的数据有限,这实际上是不现实的。我们利用越南河内的一个房地产开发项目Ecopark Township的真实数据,研究了两个从深度生成模型中获得的机器,以创建用于ABMS的合成剂。特别地,我们使用了条件变分自动编码器(CVAE)和条件生成对抗网络(CGAN)。文献回顾作为本文的背景和背景,我们将集中在两个主要的主题:人口合成技术和房地产研究与实践中的机器学习模型。群体综合历史上,群体综合是用各种不同的方法进行的。在这篇论文中,我们将讨论在种群综合应用中使用深层遗传模型的几个最新进展。以前,迭代算法,如迭代比例拟合(IPF)已经成为一个实践标准,因为它们容易:预印本提交给Elsevier的12Population synthesis for urban Dependent generative modelsimplementation的城市居民建模第1页[30]。然而,它们最终是一种启发式的方法,简单地通过扩展因子来再现empir分布,对用于合成的样品的数据分布过于敏感。例如,如果某些属性的特定组合不存在或未被删除(例如,高于或低于某个年龄的人,来了,等等),它将强烈地偏向结果。为了解决这个问题,IPF本身并不是一个模型,因为它不能对数据样本进行概括。Fa-Roq等人提出的Gibbs抽样方法(Gibbs sampling method)在低密度问题(如在10个人口特征变量下)中表现出良好的性能,但在高维问题上存在明显的计算挑战。随后,Sunand Erath[34]的贝叶斯网络部分地解决了高维问题。然而,他们的工作要么依赖于知道网络图的拓扑结构,要么依赖于通过某种发现算法来发现它,这种发现算法不能扩展到具有潜在变量的高密度数据或模型。[31]也提出了使用隐马尔可夫模型(HMMs)作为合成总体的另一种方法,其中eachattribute表示一个状态,所有属性对所有个体都是连续采样的。最近,深度生成模型[18]已经证明了它在大规模生成建模问题上的缺陷。在群体综合的背景下,[6]和[8]以及[10]和[39]分别提出了用于综合运输数据和医学数据的深层生成模型。[7]提出使用变分自动编码器(VAE)来同步大小的运输数据,并成功地在高维环境中生成种群。文献[15]的结果显示了botha VAE和具有Wasserstein距离的生成对抗网络(GAN)如何生成零样本,即从样本中生成代理,这使得这些类型的生成模型更加特殊。[4]训练一个GAN,该GAN可以在迁移率设置下用表格和顺序数据描述重建代理。[8]提出了一种条件变分自动编码器(CVAE)的应用,用于估计出行偏好在社会经济和外部变量条件下的联合分布,从而揭示交通偏好是如何演变的。鉴于VAE的重要性和本文的GAN算法,我们将用分段方法对它们进行更详细的描述。[20]提出的变分自动编码器(VAE)成功地对大数据集上的分布进行了筛选和建模。[33]在VAE的基础上提出了一种新的变分自动编码器(CVAE)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-20 21:56:43
CVAE将高维输出空间作为生成过程,在附加输入特性1,c的基础上生成输出x。自从VAEs出现以来,许多扩展和改进已经成为机器学习中的一个术语,特征经常被用来描述其他文献中所提到的变量或属性,以优化性能。作为一个例子,编码器和解码器模型可以被修改为其他神经网络结构,如递归神经网络。[36]概述了基于自动编码器的学习的最新发展,并描述了确保特征及其分布的la-tent表示的三种机制。此外,[21]给出了被证明适用于深度生成模型(特别是VAEs)的直接框架和任务的概述。两个这样的领域是表征学习和艺术创造力。总之,[21]指出VAEs是目前Litera中为数不多的在学习潜在变量和综合方面具有重要作用的框架之一。[19]提出了生成对抗网络(GAN),作为训练生成模型的一种替代方法,除了GAN之外,还提出了大量的变体。例如,将由GAN损失函数度量的散度由Jensen Shan-non-Department改变为Wasserstein距离,可以提高训练过程中的稳定性,缓解常见的问题,如模式崩溃[3]。后来,[25]提出了一个条件版本的theGAN,即条件Gen-erative对抗网络(CGAN)。CGAN是通过向生成器和鉴别器提供条件特征来构造的。机器学习在房地产开发中的应用研究主要集中在房地产开发中的两个方面;预测未来价格,把握投资机会。房地产领域的其他研究集中在评估建设速度、移动模式和客户目标,然而,并不都使用机器学习方法。然而,Afew在入住率预测方面的文章大多使用agg regate建筑特征或室内环境数据。房价预测是机器学习在房地产领域最常见的应用。模型从回归模型到复杂的结构,如卷积神经网络(CNNs)和双向短期记忆(bi-LSTM)模型。[40]使用aCNN对网上房屋广告图片的美感进行评分,并将此评分与基本属性相结合,使用极端梯度boost-ing(XGBoost)回归模型预测房价。[5]通过包括邻近区域中其他类似的道具作为模型输入,声称优于现有的最先进的模型。他们发展了K-最近相似房屋抽样(KNSHS)算法,将KNSHS结果和当前待估值属性的相似附近属性和输入序列输入到abi-LSTM模型中。从生成序列中提取的特征被用来在一个完全一致的层次上预测房价。投资机会的研究包括模型:提交给爱思唯尔的12Population synthesis第2页的预印本,用于城市居民建模,使用deep generative models,由[1]提出,预测一个城市的哪些地区可能会经历Gen-Tri,由[17]提出,预测属性的模型列在市场价格以下。前者使用随机Forrest分类器,而Latterest评估几种算法,如K-最近neigh-bor(KNN)、支持向量机(SVM)和神经网络(NN)。由[24]提出,通过分类房地产、育儿和体育等细分领域,从社交媒体上创建客户目标群体。所选择的目标有助于mer-chants识别目标客户和规划社会媒体策略。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-20 21:56:50
本文利用深度神经网络对目标客户进行分类,从aparticular社交媒体平台中提取特征。入住率预测和能源使用率预测是一个广泛的问题,可以从多种角度来解决。[28]利用建筑物的描述性特征,如建筑物的结构和在建筑物内工作的雇员人数,预测商业建筑的能耗。[29]建立了一个基于间接法的oc-cupancy预测模型。该模型使用机器学习和室内环境数据来预测居住,重点是隐私。提出了决策树模型和hid-den马尔可夫模型。第三种方法是由[22]提出的,他使用一个带有Wasserstein dis-tant的CGAN作为损失函数来预测需求侧的电量。他们通过对CGAN进行电气消费方面的培训来做到这一点,这些培训以中小企业30分钟的间隔表示。该发电机可以在训练过程中产生重复的电耗。学术界还没有详尽地阐述房地产领域的ML应用,然而,公司和创业公司正在使用ML在行业内提供服务和应用。公司在ter m Property Technology(简称orPropTech)下提供了一系列不同的应用程序。然而,据我们所知,没有一个研究提供了类似于城市住宅建模的概念,为潜在的客户获取和规划,本文所提出的。下面提供了四个最相关(但不相似)的应用程序的简要描述。对于更全面的描述,[27]、[16]和[11]是一个很好的概述。oCompass为代理机构预测购买:Compass经营一个销售列表网站,专注于美国主要城市,主要是东海岸。该公司声称,根据客户的搜索历史,当客户最有可能购买道具时,该公司将topredict,并在客户可能购买时通知销售机构[27]。oSidewalk Labs产生设计想法:Alphabetcompany创建了一个生成性设计工具,在提供广泛的基础信息的情况下,可以产生“数百万个规划场景”[37]。该工具旨在帮助规划者以最好的方式实现目标和交易。oCityBldr为下一个投资做好准备:寻找多地产开发用地可能需要几天到几个月的时间。CityBldr使用人工智能在几秒钟内找到合适的真实网站,并根据特定参数对机会进行排名[9]。oLocalize提供透明度:Localize主要是纽约市的运营商,使用人工智能为购房者提供跨部门服务。该公司提供了公寓实际照明、通勤时间、停车设施等方面的知识[23]3。方法在一个群体综合应用中,目标是对一个合成目标群体进行可抽样,该群体可以重新表示一个给定的真实的和已知的群体X。可以生成数据的特定类型的模型,类似于realdata,称为生成模型。从图像[38]到文本生成[14],深度生成模型已经被证明在广泛的生成任务中获得了高性能。生成对抗网络(GANs)和变异自动编码器(VAEs)是深层遗传模型的例子,已被证明在群体合成应用中创建同步智能体方面表现良好。与其他传统的生成模型相比,这两种方法为高维数据集提供了完整的联合分布。在前人研究的基础上,我们引入CGAN和CVAE对城市居民特征进行总体合成,生成综合的城市居民属性特征。生成模型与判别模型相比,生成模型是为了重建感兴趣的数据而建立的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-20 21:56:56
一个解决标准分类问题的判别模型可以被定义为一个直接映射,其中xxx的一个实例被用于给定p(yyy xxx,www)的yyy。在生成模型中,我们试图用一种非常直接的方法来近似映射。这些模型正在学习一个潜在的分布,由潜在的随机变量表示,数据来自这些变量。这使得生成与真实数据相似的合成数据成为可能,可能是图像、文本或房地产项目的ur-ban居民。直觉遵循理查德·费曼的名言:“我不能创造的东西,我不理解。”[2]生成模型的特征是从概率分布(通常是高斯分布)z中提取样本,并通过生成模型对它们进行变换。使用高斯ran-dom变量生成近似分布,我们可以比较模型重构truedata分布的能力,p(xxx)。损失是真实分布p(xxx)和近似分布θp(xxx)之间的关系。:预印本提交给Elsevier《12Population Synthese for urban Deneral models》第3页,使用深度生成模型进行城市居民建模。生成特性迫使模型参数反映现实世界的一些潜在结构,这使得模型对隐藏或潜在的模式进行编码。在下一节中介绍的两个模型都是生成模型家族的一部分。条件生成对抗网络[19]提出了一种利用对抗训练概念训练生成模型的新方法。该方法包括两个对抗性模型,一个生成函数G和一个判别函数D。这些函数由神经网络参数化并同时训练。gen-erator G捕捉数据的分布,dis-criminator D估计样本是假的(来自生成器)还是真的概率。这样,生成器学习生成可信的数据,而鉴别器学习区分假的和真的采样。为了学习数据的分布,G用先验噪声分布p(zzz)中的一个样本来学习,然后把样本转换成一个真实的Agent。这种方法用神经网络建立了从先前噪声到数据空间的映射函数。称为鉴别器的对抗性网络D是一种二进制分类器。给D提供一个代理,从训练数据(真实)或G生成的代理(假的)。形式上,D输出一个介于0和1之间的值,表示从数据中得到xxx的概率D(xxx)。D被训练以最大化cor正确地标记来自G和训练数据的代理的概率。同时,Gis训练使ln(1*D(G(zzz))最小化。在博弈论中,D和G正在进行一个最小最大对策,其值函数为V(G,D)=exxxμpdata(xxx)[ln D(xxx)]+ezzμpz(zzz)[ln(1*D(G(zzz)))](1),其中,exxxμpdata(xxx)[ln D(xxx)]表示D赋予真实数据的对数概率的期望值。第二项Ezzzμpz(zzz)[ln(1*D(G(zzz)))]表示G的目标是使1减t的对数hm最小化,即D将G生成的一个agent标记为实的概率。由于等式1中的值函数,D使损失最小的损失函数LDcanbe提取为:ld=*[ln D(xxx(i))+ln(1*D(G(zzz(i)))](2)而G的损失函数为:lg=ln(1*D(G(zzz(i)))(3)对于每一个数据点i,方程2和3可以同时最大。cg(z c)gzcreal xcfake DD(x c)图1:条件生成对抗网络的高级结构。c broxcσμεxq pφ图2:条件变量自动编码器的高级结构。GAN模型可以通过条件集来扩展生成变量,ccc,如图1所示。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群