全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
4046 4
2018-01-19
想请教大家一个问题,我有两份数据,一份是历年十大会计师事务所名单,另一份是上市公司的审计事务所名单。然后我现在是想设置big10的虚拟变量,即十大审计取1,否则取0。但是我怎么把这两份数据进行匹配呢?
我试了vlookup(在excel里做),但是问题是,事务所名称不完全相同,比如“安永华明会计师事务所”和“安永华明会计师事务所(特殊普通合伙人)”。如果用精确匹配的话就匹配不上,用近似匹配的话常常会出现错误。
其他笨办法,比如一个一个的筛选我也想过,但是感觉工作量太大,因为有10000+的样本。不知道哪位同学有好的方法?谢谢啦!
big10名单

上市公司的审计事务所



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-1-22 22:11:59
我最近刚好也遇到了这个问题,想问问你最终解决了吗?还是说直接初略的固定出一组前十大会计师事务所来进行分析?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-28 14:36:52
沉睡的喵喵喵222 发表于 2018-1-22 22:11
我最近刚好也遇到了这个问题,想问问你最终解决了吗?还是说直接初略的固定出一组前十大会计师事务所来进行 ...
手动筛选的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-8-13 09:58:12
gen Big10=1 if strmatch(auditor,"*安永华明*")
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-10-7 15:20:44
面对这个问题,我们可以使用更智能的数据处理方式来匹配这两份数据集。以下是一种可能的方法:

### 使用Python进行文本匹配和数据整理

#### 步骤1:导入必要的库

```python
import pandas as pd
from fuzzywuzzy import fuzz, process
```

确保你安装了`fuzzywuzzy`库,它可以帮助我们处理不完全匹配的字符串。

#### 步骤2:加载你的数据

假设你的两份数据分别在两个CSV文件中:

```python
df_top10 = pd.read_csv('top_10_accounting_firms.csv')
df_audits = pd.read_csv('audit_firms_for_listed_companies.csv')
```

#### 步骤3:创建匹配函数

使用`fuzzywuzzy`的`process.extractOne`方法来找出最接近的匹配项。

```python
def match_firm(name, choices):
    return process.extractOne(name, choices)[0]

# 将df_top10中的公司名称保存为一个列表,用于后续的字符串匹配
top_10_names = df_top10['firm_name'].tolist()
```

#### 步骤4:应用函数到审计事务所数据

```python
df_audits['big10'] = df_audits['auditor'].apply(lambda x: match_firm(x, top_10_names) if fuzz.token_set_ratio(x, match_firm(x, top_10_names)) > 85 else '')
```

这里我们使用了`fuzz.token_set_ratio`来确定匹配度是否足够高。如果低于指定的阈值(例如,85),则认为没有匹配。

#### 步骤5:设置虚拟变量

```python
df_audits['is_big10'] = df_audits['big10'].apply(lambda x: 1 if x else 0)
```

这样你就可以得到一个“Big10”审计的二进制指示列。

这个方法使用了模糊匹配,可以处理名称中的小差异。当然,阈值可能需要根据实际情况调整以获得最佳效果。此外,由于`fuzzywuzzy`在大数据集上可能会较慢,如果数据量特别大,考虑使用更高效的算法或并行处理技术。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群