一道相对较难的用R语言实现较为精准的模糊匹配的题目，谢谢解答，有金币奖励

畅饮0

5754

收藏 2016-08-11

悬赏 18 个论坛币已解决

有数据源如下：

然后要模糊匹配成的结果如下:（把所有名字相近的企业聚到一起竖列排下去）

找到相似的企业名字（但数据源中北京市中和街道这种地域名不能算进，因为按区域命名的企业太多）

这道题目很难，希望会的朋友能教授一下！谢谢

1.png

原图尺寸 6.13 KB

2.png

原图尺寸 3.27 KB

最佳答案

鸟儿找虫吃查看完整内容

能想到的方法是截取字符串后分组聚合，亦或是用ETL算法相似匹配，可能有一定的失误率

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

鸟儿找虫吃

2016-8-11 14:23:42

能想到的方法是截取字符串后分组聚合，亦或是用ETL算法相似匹配，可能有一定的失误率

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zerofung

2016-8-11 16:08:14

你输入的是模糊匹配关键词是什么？还是说你就是要把所有名字相近的企业名全部聚在一起？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

畅饮0

2016-8-11 16:46:18

zerofung 发表于 2016-8-11 16:08
你输入的是模糊匹配关键词是什么？还是说你就是要把所有名字相近的企业名全部聚在一起？

把所有名字相近的企业名全部聚在一起，按相近的企业名这么排下去
就是我贴的那个结果图片

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zerofung

2016-8-11 18:05:21

畅饮0 发表于 2016-8-11 16:46
把所有名字相近的企业名全部聚在一起，按相近的企业名这么排下去
就是我贴的那个结果图片

如果是这样，我觉得应该有针对字符串的聚类分析？但是我真的不懂。
提供一个比较投机取巧的思路，可能有帮助。
用正则gsub把“集团”“有限”“公司”“街道”等明显无关的词去掉，然后order，可能实现吗？但好像会丢失很多东西
如果有其他人解答了麻烦提醒我一下，我也想学习一下，谢谢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bbslover

2016-8-13 04:54:57

看看文本挖掘等技术，相信能解决，把文字信息变为数值等策略，然后聚类等。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

畅饮0

2016-8-20 09:18:17

鸟儿找虫吃发表于 2016-8-11 14:23
能想到的方法是截取字符串后分组聚合，亦或是用ETL算法相似匹配，可能有一定的失误率

目前也只有这个方法，感谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

阁阁嫁到

2020-1-7 11:23:41

畅饮0 发表于 2016-8-11 14:23
有数据源如下：

楼主楼主，不知道你还在不在，我现在遇到同样的问题了，还想问一下，您解决了吗

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

BG4IMP

2022-12-13 21:05:07

我编过R的代码，思路就是把公司的名字拆开，逐字比较，找到最接近的那个
速度不快，做几千个公司名字，大概需要20多分钟
也许是我编的算法效率不行
看看有谁有更好的方法吧，也学习一下

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zhjx19

2022-12-14 00:00:20

BG4IMP 发表于 2022-12-13 21:05
我编过R的代码，思路就是把公司的名字拆开，逐字比较，找到最接近的那个
速度不快，做几千个公司名字，大 ...

stringdist包可以计算字符串距离，选用有最长共同子串距离：

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zhjx19

2022-12-14 10:49:17

zhjx19 发表于 2022-12-14 00:00
stringdist包可以计算字符串距离，选用有最长共同子串距离：

代码咋不显示呢

library(stringdist)

x = c("中泰中泰剑桥集团", "中国移动公司北京分部", "中国贝利发电公司",
   "北大荒中粮集团", "贝利发电有限责任公司",
   "北大荒中粮有限集团北京销售部", "北京市中和街道味千拉面",
   "北京市中和街道味有食堂NO1")

D = stringdistmatrix(x, x, method = "lcs")
D[D == 0] = Inf

J = apply(D, 1, which.min)

tibble::tibble(原序列 = x, 最接近 = x[J])

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

赵安豆

2024-6-13 08:18:39

在R语言里实现较为精准的模糊匹配主要可以通过使用stringdist包进行字符串相似度计算。下面我将给出一个解决方案，但请注意，由于数据源未提供，以下代码只能展示基本思路。

首先安装并加载所需的包：

```r
install.packages("tidyverse")
install.packages("stringdist")

library(tidyverse)
library(stringdist)
```

设定你的数据源示例（实际使用时请替换为真实数据）：

```r
data_source <- data.frame(
  company_name = c('北京中和街道科技发展有限公司', '深圳市中和信息技术有限公司',
               '上海中和科技集团有限公司', '广州中和软件开发有限公司',
               '北京市中和街道社区服务中心', '深圳华强北电子市场')
)
```

定义一个函数用于模糊匹配：

```r
fuzzy_match <- function(data, threshold = 0.1) {
  n_companies <- nrow(data)

  # 计算字符串距离矩阵（这里使用了标准化Levenshtein距离）
  dist_matrix <- stringdistmatrix(toupper(data$company_name), toupper(data$company_name),
                              method = "lv", normalize = TRUE)

  # 矩阵的行和列代表不同的公司名称
  matched_companies <- list()

  for (i in 1:n_companies) {
if (is.null(matched_companies[[i]])) {
   # 找到与当前公司字符串相似度小于阈值的所有其他公司
   similar_companies <- which(dist_matrix[i,] < threshold & dist_matrix[i,] != 0)

   matched_companies[[i]] <- data$company_name[i]

   if (length(similar_companies) > 1) {
      for (j in similar_companies[-which(i == similar_companies)]) {
      # 如果两个公司字符串相似，将它们归为一组
      matched_companies[[i]] <- c(matched_companies[[i]], data$company_name[j])

      # 标记这些公司已被匹配，以避免重复匹配
      dist_matrix[i, j] <- 1.0
      dist_matrix[j, i] <- 1.0
      }
   }
}
  }

  return(matched_companies)
}
```

使用该函数处理数据：

```r
results <- fuzzy_match(data_source)

# 打印结果
for (i in seq_along(results)) {
  cat("组", i, ":", paste(results[[i]], collapse = ", "), "\n")
}
```

需要注意的是，字符串距离阈值的选择对最终匹配结果有较大影响。你可能需要根据实际需求调整这个参数。

以上代码仅供参考，实际应用时请根据具体情况调整细节设置。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群