请问Stata有没有命令是直接可以从字符串中提取数字的？

16237

收藏 2017-03-21

想从不同长度字符串中提取数字，例如
Event
XXX公司社保基金金额为40.3万元

XX公司环保投入额为300.09万元

X工程在建工程费用为405.9万元

将上述字符中的 40.3 300.09 405.9提取出该如何操作？请高人赐教

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

Eric1028

2017-3-21 14:42:28

大炮0515 发表于 2017-3-21 09:25
想从不同长度字符串中提取数字，例如
Event
XXX公司社保基金金额为40.3万元

str_extract(character, "\\\d+")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大炮0515

2017-3-21 15:54:34

Eric1028 发表于 2017-3-21 14:42
str_extract(character, \"///d+\")

请问 str_extract 是R命令吗？Stata无法实现吗？不会用R软件

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Eric1028

2017-3-21 15:58:05

我不會stata抱歉~~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大炮0515

2017-3-21 16:37:10

Eric1028 发表于 2017-3-21 15:58
我不會stata抱歉~~

好的！！！非常感谢！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bwhbwh

2018-5-3 23:57:29

gen n = real(regexs(1)) if regexm( 注册资本 ,"([0-9]+)")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

1900415

2018-11-19 17:54:38

bwhbwh 发表于 2018-5-3 23:57
gen n = real(regexs(1)) if regexm( 注册资本 ,"([0-9]+)")

您这个只能取整数，如果是小数怎么取

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

当归wc2

2019-3-6 19:21:45

bwhbwh 发表于 2018-5-3 23:57
gen n = real(regexs(1)) if regexm( 注册资本 ,"([0-9]+)")

你好啊，试了代码，很实用。能提取第一个整数，请问要提取第二、第三个整数应该怎么改代码？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bwhbwh

2019-3-13 08:27:24

当归wc2 发表于 2019-3-6 19:21
你好啊，试了代码，很实用。能提取第一个整数，请问要提取第二、第三个整数应该怎么改代码？

moss var1, regex match("([0-9]+\.*[0-9]*|\.[0-9]+)")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bwhbwh

2019-3-13 08:45:21

gen var2= regexs(1) if regexm(var1,"([0-9]+.[0-9]+)")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jzhyue

2019-3-13 09:26:06

*就示例而言
real(regexs(1)) if regexm(Event, "([.0-9]+)")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

赵安豆

2024-6-26 10:59:39

在Stata中，可以使用`regexp()`函数来从字符串中提取数字。以下是一个示例命令序列，用于处理您给出的数据：

```
clear all
input str25 line
"Event"
"XXX公司社保基金金额为40.3万元"
"XX公司环保投入额为300.09万元"
"X工程在建工程费用为405.9万元"
end

gen num = .
foreach x of numlist _N {
  regsubf(line[`x'], "[^[:digit:].]", "", g temp)
  replace num = temp if _n == `x'
}

* 此步骤将包含数字的字符串转换成数值类型
replace num = float(num)

list line num
```

上述命令首先创建一个含有示例文本的数据集，然后使用`regsubf()`函数从每一行中提取数字（包括小数点）。注意这里的正则表达式"[^[:digit:].]"用于匹配任何非数字和非点的字符，并用空字符串替换它们。最后一步是将提取到的字符串转换为数值类型。

但是，这种方法可能在一些复杂的情况下会失败，例如当字符串中含有多个数字时或文本内容中包含其他特殊符号。对于更复杂的模式，建议使用`regexm()`和`regexs()`函数来实现更精确的数据处理。

以下是使用正则表达式提取数字的示例：

```
clear all
input str25 line
"Event"
"XXX公司社保基金金额为40.3万元"
"XX公司环保投入额为300.09万元"
"X工程在建工程费用为405.9万元"
end

gen num = .
foreach x of numlist _N {
  if regexm(line[`x'], "([[:digit:]]+\\.[[:digit:]]*)|([[:digit:]]+)") { // 正则表达式匹配数字和小数
replace num = strtonumber(regexs(1)) if _n == `x' & regexm(line, "\\.")
replace num = strtonumber(regexs(2)) if _n == `x' & !regexm(line, "\\.")
  }
}

list line num
```

这种方法首先使用正则表达式匹配所有数字和小数，然后根据匹配结果中是否存在小数点来选择性地提取数值。

此文本由CAIE学术大模型生成，添加下方二维码，优先体验功能试用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群