全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
14399 8
2009-12-28
各位大侠,我想从姓名中提取首字母,原因是我的两个数据库中有一个只有名字和id,而另一个只有首字母缩写和id。按id合并后再按姓名看一看,所以要从姓名中提取首字母进行比较。
如“张三”“李四”要转化成“ZS” 、"LS".
怎么整?求大侠帮忙
多谢各位热心人再做一点说明我不是要改某个字符而是数据库中一个字符型变量。其次这个原理我已经大概知道了就是找出某一字母开始的汉字中的第一个。比如a开头第一个是“啊”b开头第一个是“把”那么大于啊小于把的就都是以字母a开头的。但是怎样确定以某字母开头的第一个汉字。是直接进行汉字比较如"if '啊'<汉字<'把' then pinyin=a;"还是要找出sas系统存储汉字的编码。如果需找出编码那么怎么找。
还有上面的方法不能找汉字的拼音,如果要找出拼音该怎么办,如张三要返回“zhang-san”、王二麻子“wang-er-ma-zi”要怎么办?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-12-29 00:59:01
1# dahufa123

It can be easily implement in SAS formats. Here is the idea.

1) Get a data base which has almost all Chinese words + pingying.
2) For each Chinese words taking its first alpha of pingying( it only has 26 groups)
3) Run sas proc fromat to build up a lookup table.

HTH
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-29 05:28:13
the most critical part is how to get the data base of Chinese words +pinyin
so the upstair's answer is nothing but trash
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-29 10:48:01
在EXCEL中可以实现,LZ可以搜索“excel 提取汉字拼音的首字母”
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-29 11:17:56
Abstracted it  from other source. Hope  it's useful for LZ.
如何提取汉语拼音的首字?一般来说,有两种方法!

  ①函数法:利用vlookup,但有一定的局限性,效率也是问题。

  ②vba法:是最佳的选择,并且,仅使用几行Excel VBA代码就行,为什么这么说呢?因为Excel里利用Vlookup工作表函数和Evaluate方法可以快捷的计算出结果。

  通过如下例子可以看出Excel VBA独有的优势。代码如下

  Public Function MyPY(ByVal vText As Variant) As String
  Application.Volatile
  Dim strResult As String
  Dim lStart As Long
  On Error Resume Next

  For lStart = 1 To Len(vText)
  strResult = strResult & Application.Evaluate("VLookup(""" & Mid(vText, _
                                                                         lStart, 1) & _
                                                                         """,  {""吖"",""A"";""八"",""B"";""嚓"",""C"";""咑"",""D"";""鵽"",""E"";"" 发"",""F"";""猤"",""G"";& _
""铪"",""H"";""夻"",""J"";""咔"",""K"";""垃"",""L"";""嘸"",""M"";""旀"",""N"";""噢"",""O"";&_
""妑"",""P"";""七"",""Q"";""囕"",""R"";""仨"",""S"";""他"",""T"";""屲"",""W"";""夕"",""X"";& _"
"丫"",""Y"";""帀"",""Z""},2,1)")
     Next

  MyPY = strResult

  End Function

  上文自定义函数提取的是纯汉字,但“中华人民共和国123(辽宁)”要求返回“ZHRMGHG(LN)”

“中华人民共和国1-辽宁”返回“ZHRMGHG-LN”怎么办?

  关键点:

  ①排除A~Z a~z 0~9,就是所有字母和数字。

  ②判断是否为每个提取的字符是否汉字。一般判断为汉字可以利用ASC码值判断,这里我提供另一种方法。

  整体代码如下:

  Public Function SuperPY(ByVal vText As Variant) As String

  Application.Volatile
  Dim strResult As String
  Dim lStart As Long
  Dim sTemp As String
  On Error Resume Next

  For lStart = 1 To Len(vText)

  sTemp = VBA.StrConv(Mid(vText, lStart, 1), vbNarrow)
         If sTemp Like "[!A-Z !a-z !0-9]" Then   '排除什么可以在like表达式中修改
             If Len(sTemp) <> LenB(StrConv(sTemp, vbFromUnicode)) Then


                 strResult = strResult & Application.Evaluate("VLookup(""" & Mid(vText, _
                                                                                 lStart, 1) & _
                                                                                 """,{""吖"",""A"";""八"",""B"";""嚓"",""C"";""咑"",""D"";""鵽"",""E"";"" 发"",""F"";""猤"",""G"";& _
""铪"",""H"";""夻"",""J"";""咔"",""K"";""垃"",""L"";""嘸"",""M"";""旀"",""N"";""噢"",""O"";""妑"",& _
""P"";""七"",""Q"";""囕"",""R"";""仨"",""S"";""他"",""T"";""屲"",""W"";""夕"",""X"";""丫"",""Y"";""帀"",""Z""},2,1)")

             Else

                 strResult = strResult & Mid(vText, lStart, 1)
             End If
         End If
  Next

  SuperPY = strResult

  End Functio
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-29 15:16:12
%MACRO CharToPY(CharName=);/*获得一个汉字的拼音第一个字母*/
OPTIONS SOURCE=0 NOTES=0;
DATA _NULL_;
  TransToHex=put("&CharName",$HEX4.);
  CALL SYMPUT('HexCode',TransToHex);
RUN;
%LET Now=0x&HexCode;
%GLOBAL Out;
%IF ( &Now < 0xB0A1) %THEN %LET Out=&CharName;   
%ELSE %IF ( &Now < 0xB0C5) %THEN %LET Out=A;   
%ELSE %IF ( &Now < 0xB2C1) %THEN %LET Out=B;   
%ELSE %IF ( &Now < 0xB4EE) %THEN %LET Out=C;   
%ELSE %IF ( &Now < 0xB6EA) %THEN %LET Out=D;   
%ELSE %IF ( &Now < 0xB7A2) %THEN %LET Out=E;   
%ELSE %IF ( &Now < 0xB8C1) %THEN %LET Out=F;   
%ELSE %IF ( &Now < 0xB9FE) %THEN %LET Out=G;   
%ELSE %IF ( &Now < 0xBBF7) %THEN %LET Out=H;   
%ELSE %IF ( &Now < 0xBFA6) %THEN %LET Out=J;   
%ELSE %IF ( &Now < 0xC0AC) %THEN %LET Out=K;   
%ELSE %IF ( &Now < 0xC2E8) %THEN %LET Out=L;   
%ELSE %IF ( &Now < 0xC4C3) %THEN %LET Out=M;   
%ELSE %IF ( &Now < 0xC5B6) %THEN %LET Out=N;   
%ELSE %IF ( &Now < 0xC5BE) %THEN %LET Out=O;   
%ELSE %IF ( &Now < 0xC6DA) %THEN %LET Out=P;   
%ELSE %IF ( &Now < 0xC8BB) %THEN %LET Out=Q;   
%ELSE %IF ( &Now < 0xC8F6) %THEN %LET Out=R;   
%ELSE %IF ( &Now < 0xCBFA) %THEN %LET Out=S;   
%ELSE %IF ( &Now < 0xCDDA) %THEN %LET Out=T;   
%ELSE %IF ( &Now < 0xCEF4) %THEN %LET Out=W;   
%ELSE %IF ( &Now < 0xD1B9) %THEN %LET Out=X;   
%ELSE %IF ( &Now < 0xD4D1) %THEN %LET Out=Y;   
%ELSE %IF ( &Now < 0xD7FA) %THEN %LET Out=Z;   
%MEND;
/*%CharToPY(CharName=张);%put &out;*/
%MACRO GetPY(Chinese=);/*获得每个汉字的拼音第一个字母*/
%GLOBAL PY Out;%LET PY=;%LET Out=;
%IF (%str(&Chinese) NE %STR()) %THEN %DO;
  %LET C=%SYSFUNC(COMPRESS(&Chinese));
  %LET LEN=%LENGTH(&C);
  %LET MAX_P=%EVAL(&LEN/2);
  %DO I=1 %TO &MAX_P;
   %LET POS=%EVAL(&I*2-1);
   %LET NOW=%SUBSTR(&C,&POS,2);
   %CharToPY(CharName=&NOW);
   %LET PY=%SYSFUNC(COMPRESS(&PY &Out));
  %END;
%END;
%MEND;
/*%GetPY(Chinese=南京医科大学卫生统计张汝阳);%put &py;*/
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群