全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1371 10
2022-06-24
英文标题:
《Improving Detection of Credit Card Fraudulent Transactions using
  Generative Adversarial Networks》
---
作者:
Hung Ba
---
最新提交年份:
2019
---
英文摘要:
  In this study, we employ Generative Adversarial Networks as an oversampling method to generate artificial data to assist with the classification of credit card fraudulent transactions. GANs is a generative model based on the idea of game theory, in which a generator G and a discriminator D are trying to outsmart each other. The objective of the generator is to confuse the discriminator. The objective of the discriminator is to distinguish the instances coming from the generator and the instances coming from the original dataset. By training GANs on a set of credit card fraudulent transactions, we are able to improve the discriminatory power of classifiers. The experiment results show that the Wasserstein-GAN is more stable in training and produce more realistic fraudulent transactions than the other GANs. On the other hand, the conditional version of GANs in which labels are set by k-means clustering does not necessarily improve the non-conditional versions of GANs.
---
中文摘要:
在这项研究中,我们采用生成性对抗网络作为过采样方法来生成人工数据,以帮助对信用卡欺诈交易进行分类。GANs是一个基于博弈论思想的生成模型,其中生成器G和鉴别器D试图智胜对方。生成器的目的是混淆鉴别器。鉴别器的目标是区分来自生成器的实例和来自原始数据集的实例。通过对机构进行一系列信用卡欺诈交易的培训,我们能够提高分类器的识别能力。实验结果表明,与其他机构相比,Wasserstein机构在训练中更稳定,产生更真实的欺诈交易。另一方面,通过k-means聚类设置标签的条件版本的GANs不一定会改进非条件版本的GANs。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-24 07:53:14
利用生成性对抗网络改进信用卡欺诈交易的检测Sung Baa,英国爱丁堡大学日本商学院知识科学基础学院,英国爱丁堡大学日本商学院,文章历史汇编,2019年7月9日,我们采用生成性对抗网络作为过采样方法来生成人工数据,以帮助对信用卡欺诈交易进行分类。GANs是一种基于博弈论思想的生成模型,其中生成器G和鉴别器D试图相互超越。生成器的目的是混淆鉴别器。鉴别器的目标是区分来自Generator的实例和来自原始数据集的实例。通过对机构进行一系列信用卡欺诈交易的培训,我们能够提高分类人员的识别能力。实验结果表明,Wasserstein-GAN比其他GAN在训练中更稳定,产生更真实的欺诈交易。另一方面,通过k均值聚类对标签进行设置的条件版本的GANs不一定会改进非条件版本的GANs。关键词生成性对抗网络;学习不平衡;信用卡,欺诈交易1。简介信用卡在现代社会中被用作一种重要的支付方式,在信用卡的大量使用中,越来越多的欺诈交易产生。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 07:53:17
欺诈交易不仅影响到银行和商户,也影响到终端用户,因为即使他们得到报销,他们最终也可能为更高的信用卡服务费用支付更多的费用。在这项研究中,我们采用生成性对抗网络(GANs,Goodfello et al.(2014))作为过采样方法,生成人工数据,以帮助对信用卡欺诈交易进行分类。GANs是一个基于博弈论思想的生成模型,其中生成器G和鉴别器D试图相互配合。生成器的目的是混淆鉴别器。鉴别器的目的是区分来自联系洪巴作者的实例。电子邮件:挂起。nguyen@ed.ac.ukgenerator以及来自原始数据集的实例。通过对一组欺诈交易的机构进行培训,然后生成虚假欺诈交易来平衡数据集,我们比较了不同的过采样方法在信用卡欺诈检测中的作用。2、有关类别分布、信贷发放流程和欺诈检测的文献综述是产生最高程度不平衡类别的来源。不平衡数据集(IDS)几乎有属于大多数类好应用程序的观测值,而另一个属于少数类坏应用程序的观测值。为了处理不平衡的数据集,对少数类进行随机过采样和对多数类进行随机欠采样是两种常见的采样方法。然而,过度采样很容易陷入过度拟合,因为欠采样可能会丢弃有用的数据,从而导致信息丢失,He和Garcia(2009)。作为随机上采样的一种改进,综合少数超采样技术(SMOTE)Chawlaet al。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 07:53:20
(2002)综合了少数群体的艺术数据,而不是复制。随机过采样示例(ROSE)Menardi和Torelli(2014)通过允许生成观察数据的一些克隆,而不产生联系,概括了带替换的过采样标准技术(罕见示例)。应用GANs创建艺术样本以平衡分类问题中的类别的最新工作是Douzas和Bacao(2018),使用逻辑回归、支持向量机、最近邻法,在71个具有不同不平衡比率、特性数量和子聚类结构的数据集上评估了cGANperformance,并与多重过采样方法进行了比较,决策树和梯度推进机作为分类器。结果表明,与其他方法相比,cGAN在各种分类器、评估指标和结构复杂的数据集方面表现更好。如果给定足够的容量和训练时间,对性能改善的解释与cGAN恢复训练数据分布的能力有关。3、方法学在本节中,我们提供了过采样背景,然后总结了theGAN、cGAN、WGAN和WCGAN框架,紧跟着inGoodfellow et al.(2014)、Gauthier(2014)、Arjovsky et al.(2017)和Gulrajani et al.(2017)的符号。3.0.1. 过采样将使用流行的过采样方法,包括随机过采样(ROS)、SMOTE、andADASYN Haixiang等人(2017)。ROS通过随机复制少数样本来平衡数据。SMOTE选择K个最近邻,连接它们并形成合成样本。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 07:53:23
ADASYN通过自适应地改变不同小样本的权重来补偿偏态分布,使用密度分布作为标准,自动确定每个小样本必须生成的合成样本数量。3.0.2. GAN和CGANThe生成模型G,定义为G:Z→ 其中Z是噪声空间,X是数据空间,旨在捕捉真实的数据分布。鉴别器,定义为D:X→ [0,1]估计样本来自真实数据分布而非G生成的数据空间的概率。这两个模型都可以是多层感知器,在两人极小极大博弈中与值函数进行竞争:minGmaxDV(D,G)=Ex~pdata[对数(x)]+Ez~pz(z)[对数(1- D(G(z)))](3.1)值x和z分别从实际数据分布和噪声分布中采样。通过随机梯度下降(SGD),GAN训练过程可以是D的k步和G的一个优化步骤。为了防止梯度消失,G的优化过程不是最小化生成的样本被检测为伪样本的概率,而是将重点放在生成尽可能真实的噪声样本z,以混淆D(非饱和GANs)。JG(G)=Ez~pz(z)log(D(G(z)))(3.2)cGAN通过从实际数据中添加额外的空间Y来扩展GAN框架,如下所示:G:z×Y→ X和D:X×Y→ [0,1]和3.0.2更改为:minGmaxDV(D,G)=ED+例如,其中:ED=Ex,y~pdata(x,y)[对数(x,y)]。andEG=Ez~pz(z),y~p(y)[日志(1- D(g(z,y,y))]。cGAN的训练过程与GAN几乎相似。通过输入一小批m个训练示例(xi,yi)mi=1和m个噪声随机样本zimi=1,D和G的梯度更新的逻辑成本函数如下:JD=-2米mXi=1日志(xi,yi)+mXi=1日志1.- D(G(字,意),意). (3.3)JG=-mmXi=1logD(G(zi,yi),yi)。(3.4)3.1. WGAN和WCGANArovsky等人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 07:53:27
al.,2017,使用地球移动器(EM)距离来了解真实数据的概率分布。他们建议Wasserstein-GAN(WGAN)最小化EM距离,WGAN表明它可以解决GAN的训练问题,这需要仔细设计网络结构,并平衡D和G的训练。具体而言,训练WGAN的损失函数为:JD=mmXi=1fw(xi)-mXi=1fw(G(zi))。(3.5)JG=-mmXi=1fw(G(zi))。(3.6)式中,f是1-Lipschitz连续函数,由w参数化,“鉴别器”模型需要学习。我们可以在作者的原始论文中找到详细的数学主张。3.2. 实验设置我们使用Pozzolo等人(2015)的信用卡交易数据,其中包括在线交易的asubset,由31个编码特征组成。在284807笔交易中,我们有492笔欺诈。数据集高度不平衡,正类(欺诈)仅占0.172%。采用随机搜索来调整GANs框架的超参数,并在10个foldnested交叉验证(cv)下报告结果。数据包括31个特征:“时间”、“数量”、“类别”和28个额外的匿名特征。类功能是指示交易是否欺诈的标签,0和1分别表示正常和欺诈交易。所有数据都是数字和连续的(标签除外)。数据集具有命名值。为了快速实现分类算法,我们使用XGBoost(Chen and Guestrin,2016),最大深度等于4,曲线下面积作为评估矩阵。在这项研究中,我们使用GAN作为过采样方法,通过使用经过训练的收敛生成器创建人工欺诈样本,来增加少数类的数量。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群