服务器之家

服务器之家 > 正文

ASP实现关键词获取(各搜索引擎,GB2312及UTF-8)

时间:2019-10-25 11:17     来源/作者:asp技术网

不知道为什么现在各大搜索引擎编码居然不一样.当然不是GB2312就是UTF-8了.编码问题是比较头疼的问题...头疼的不要命... 
我们获得关键词,一般是通过来访页面的url进行分析的.比如 
http://www.google.com/search?hl=zh-CN&q=%E5%AD%A4%E7%8B%AC&lr= 
各位肯定知道这个是通过urlencode编码的. 
我们得到其中的信息,需要进行2步.第一步是进行urldecode,在我们普通参数活得的时候,这个是由ASP自己来进行的,但是现在我们不得不进行手工解码. 
网上函数很多,但都是针对于GB2312页面解GB2312.UTF-8的.对于这个,我们可以很轻松的先进行解码,然后根据搜索引擎判断它的编码,如果是UTF-8就再转换为GB2312. 
但是由于我的网站是UTF-8页面的.而UTF-8页面我找到的只有解UTF-8字符的urldecode编码的.在这里停顿了很久,最后我只能用最糟糕的方法,把拆分出来的关键词用xmlhttp提交到一个GB2312的ASP页面,然后活得乱码(GB2312)后再进行GB2312 to UTF-8的转换. 
下面主要实现代码. 
Public Function GetSearchKeyword(RefererUrl) ’搜索关键词 
 if RefererUrl="" or len(RefererUrl)<1 then exit function 

  on error resume next 

  Dim re 
  Set re = New RegExp 
  re.IgnoreCase = True 
  re.Global = True 
  Dim a,b,j 
  ’模糊查找关键词,此方法速度较快,范围也较大 
  re.Pattern = "(word=([^&]*)|q=([^&]*)|p=([^&]*)|query=([^&]*)|name=([^&]*)|_searchkey=([^&]*)|baidu.*?w=([^&]*))" 
  Set a = re.Execute(RefererUrl) 
  If a.Count>0 then 
   Set b = a(a.Count-1).SubMatches 
   For j=1 to b.Count 
    If Len(b(j))>0 then  
     if instr(1,RefererUrl,"google",1) then  
       GetSearchKeyword=Trim(U8Decode(b(j))) 
      elseif instr(1,refererurl,"yahoo",1) then  
       GetSearchKeyword=Trim(U8Decode(b(j))) 
      elseif instr(1,refererurl,"yisou",1) then 
       GetSearchKeyword=Trim(getkey(b(j))) 
      elseif instr(1,refererurl,"3721",1) then 
       GetSearchKeyword=Trim(getkey(b(j))) 
      else  
       GetSearchKeyword=Trim(getkey(b(j))) 
     end if 
     Exit Function 
    end if 
   Next 
  End If 
  if err then 
  err.clear 
  GetSearchKeyword = RefererUrl 
  else 
  GetSearchKeyword = ""   
  end if   
 End Function 

 Function URLEncoding(vstrIn) 
  dim strReturn,i,thischr 
    strReturn = "" 
    For i = 1 To Len(vstrIn) 
        ThisChr = Mid(vStrIn,i,1) 
        If Abs(Asc(ThisChr)) < &HFF Then 
            strReturn = strReturn & ThisChr 
        Else 
            innerCode = Asc(ThisChr) 
            If innerCode < 0 Then 
                innerCode = innerCode + &H10000 
            End If 
            Hight8 = (innerCode  And &HFF00)\ &HFF 
            Low8 = innerCode And &HFF 
            strReturn = strReturn & "%" & Hex(Hight8) &  "%" & Hex(Low8) 
        End If 
    Next 
    URLEncoding = strReturn 
End Function 
function getkey(key) 
dim oreq 
set oreq = CreateObject("MSXML2.XMLHTTP") 
oReq.open "POST","http://"&WebUrl&"/system/ShowGB2312XML.asp?a="&key,false 
oReq.send 
getkey=UTF2GB(oReq.responseText) 
end function 
function chinese2unicode(Str)  
  dim i  
  dim Str_one  
  dim Str_unicode  
  for i=1 to len(Str)  
    Str_one=Mid(Str,i,1)  
    Str_unicode=Str_unicode&chr(38)  
    Str_unicode=Str_unicode&chr(35)  
    Str_unicode=Str_unicode&chr(120)  
    Str_unicode=Str_unicode& Hex(ascw(Str_one))  
    Str_unicode=Str_unicode&chr(59)  
  next  
  Response.Write Str_unicode  
end function      

function UTF2GB(UTFStr) 
Dim dig,GBSTR 
    for Dig=1 to len(UTFStr) 
        if mid(UTFStr,Dig,1)="%" then 
            if len(UTFStr) >= Dig+8 then 
                GBStr=GBStr & ConvChinese(mid(UTFStr,Dig,9)) 
                Dig=Dig+8 
            else 
                GBStr=GBStr & mid(UTFStr,Dig,1) 
            end if 
        else 
            GBStr=GBStr & mid(UTFStr,Dig,1) 
        end if 
    next 
    UTF2GB=GBStr 
end function  

function ConvChinese(x)  
dim a,i,j,DigS,Unicode 
    A=split(mid(x,2),"%") 
    i=0 
    j=0 

    for i=0 to ubound(A)  
        A(i)=c16to2(A(i)) 
    next 

    for i=0 to ubound(A)-1 
        DigS=instr(A(i),"0") 
        Unicode="" 
        for j=1 to DigS-1 
            if j=1 then  
                A(i)=right(A(i),len(A(i))-DigS) 
                Unicode=Unicode & A(i) 
            else 
                i=i+1 
                A(i)=right(A(i),len(A(i))-2) 
                Unicode=Unicode & A(i)  
            end if  
        next 

        if len(c2to16(Unicode))=4 then 
            ConvChinese=ConvChinese & chrw(int("&H" & c2to16(Unicode))) 
        else 
            ConvChinese=ConvChinese & chr(int("&H" & c2to16(Unicode))) 
        end if 
    next 
end function 
function U8Decode(enStr) 
  ’输入一堆有%分隔的字符串,先分成数组,根据utf8规则来判断补齐规则 
  ’输入:关 E5 85 B3  键  E9 94 AE 字   E5 AD 97 
  ’输出:关 B9D8  键  BCFC 字   D7D6 
  dim c,i,i2,v,deStr,WeiS 
  for i=1 to len(enStr) 
    c=Mid(enStr,i,1) 
    if c="%" then 
      v=c16to2(Mid(enStr,i+1,2)) 
      ’判断第一次出现0的位置, 
      ’可能是1(单字节),3(3-1字节),4,5,6,7不可能是2和大于7 
      ’理论上到7,实际不会超过3。 
      WeiS=instr(v,"0") 
      v=right(v,len(v)-WeiS)’第一个去掉最左边的WeiS个 
      i=i+3 
      for i2=2 to WeiS-1 
        c=c16to2(Mid(enStr,i+1,2)) 
        c=right(c,len(c)-2)’其余去掉最左边的两个 
        v=v & c 
        i=i+3 
      next 
      if len(c2to16(v)) =4 then 
        deStr=deStr & chrw(c2to10(v)) 
      else 
        deStr=deStr & chr(c2to10(v)) 
      end if 
      i=i-1 
    else 
      if c="+" then 
        deStr=deStr&" " 
      else 
        deStr=deStr&c 
      end if 
    end if 
  next 
  U8Decode = deStr 
end function 
function c16to2(x) 
 ’这个函数是用来转换16进制到2进制的,可以是任何长度的,一般转换UTF-8的时候是两个长度,比如A9 
 ’比如:输入“C2”,转化成“11000010”,其中1100是"c"是10进制的12(1100),那么2(10)不足4位要补齐成(0010)。 
 dim tempstr 
 dim i:i=0’临时的指针 
 for i=1 to len(trim(x)) 
  tempstr= c10to2(cint(int("&h" & mid(x,i,1)))) 
  do while len(tempstr)<4 
   tempstr="0" & tempstr’如果不足4位那么补齐4位数 
  loop 
  c16to2=c16to2 & tempstr 
 next 
end function 
function c2to16(x) 
  ’2进制到16进制的转换,每4个0或1转换成一个16进制字母,输入长度当然不可能不是4的倍数了 
  dim i:i=1’临时的指针 
  for i=1 to len(x)  step 4 
   c2to16=c2to16 & hex(c2to10(mid(x,i,4))) 
  next 
end function 
function c2to10(x) 
  ’单纯的2进制到10进制的转换,不考虑转16进制所需要的4位前零补齐。 
  ’因为这个函数很有用!以后也会用到,做过通讯和硬件的人应该知道。 
  ’这里用字符串代表二进制 
   c2to10=0 
   if x="0" then exit function’如果是0的话直接得0就完事 
   dim i:i=0’临时的指针 
   for i= 0 to len(x) -1’否则利用8421码计算,这个从我最开始学计算机的时候就会,好怀念当初教我们的谢道建老先生啊! 
    if mid(x,len(x)-i,1)="1" then c2to10=c2to10+2^(i) 
   next 
end function 
function c10to2(x) 
’10进制到2进制的转换 
  dim sign, result 
  result = "" 
  ’符号 
  sign = sgn(x) 
  x = abs(x) 
  if x = 0 then 
    c10to2 = 0 
    exit function 
  end if 
  do until x = "0" 
    result = result & (x mod 2) 
    x = x \ 2 
  loop 
  result = strReverse(result) 
  if sign = -1 then 
    c10to2 = "-" & result 
  else 
    c10to2 = result 
  end if 
end function 
function URLDecode(enStr) 
  dim  deStr,strSpecial 
  dim  c,i,v 
  deStr="" 
  strSpecial="!""#$%&’()*+,/:;<=>?@[\]^`{ |}~%" 
  for  i=1  to  len(enStr) 
    c=Mid(enStr,i,1) 
    if  c="%"  then 
    v=eval("&h"+Mid(enStr,i+1,2)) 
    if  inStr(strSpecial,chr(v))>0  then 
    deStr=deStr&chr(v) 
    i=i+2 
    else 
    v=eval("&h"+Mid(enStr,i+1,2)+Mid(enStr,i+4,2)) 
    deStr=deStr&chr(v) 
    i=i+5 
    end  if 
    else 
    if  c="+"  then 
    deStr=deStr&" " 
    else 
    deStr=deStr&c 
    end  if 
    end  if 
  next 
  URLDecode=deStr 
end function 
许多代码都是网上的.找不到作者. 
PS:现在暑假就要接受,由于家庭原因我不想留在我的城市.中考到达本地重点.不想说城市名字.否则会招来熟人.只要不在山东的学校算是重点的能不能联系下. 
QQ:32113739 
对程序有极大兴趣,但信息奥赛只活得一等的X名.因为我认为技术不应该在所谓竞赛中体现,就如才能不应该在那些无意义的考试中体现一样.电子作品也弄了各省一等..不过也一般学习一般...所以只要是一般重点就好了..只是不想在离家太近的地方. 
现在ASP十分熟练,虽然有些知识缺陷,比如编码问题(汗...),但是网络如此大,我想我不是只有在课本中才能得到所谓的知识.而且现在正在啃ASP.net的书,如果贵校做网站完全可以帮忙. 
对新技术十分狂热,虽然被他们称为审美有障碍的人.但我想看到结构偶的程序还不至于吐血. 
算了..再贴点. 
偶开发D Database+ASP ->xml+xslt->xhtml +css 的算是叫CMS的东西 
http://www.joysou.com 
也用了CSDN用的FCK编辑器,今天上来才发现换了.不过那个FCK的FIle系统让偶统统改掉. 
这个系统在暑假结束前一定会发布.不过很多朋友说易用性有问题...很多人不会xslt.汗... 
唉...如果找不到学校.我也许会漂泊,也许会消失吧.当然这不是威胁..只是恨我的城市,恨那里看到的,干过的一切.

相关文章

热门资讯

玄元剑仙肉身有什么用 玄元剑仙肉身境界等级划分
玄元剑仙肉身有什么用 玄元剑仙肉身境界等级划分 2019-06-21
男生常说24816是什么意思?女生说13579是什么意思?
男生常说24816是什么意思?女生说13579是什么意思? 2019-09-17
华为nova5pro和p30pro哪个好 华为nova5pro和华为p30pro对比详情
华为nova5pro和p30pro哪个好 华为nova5pro和华为p30pro对比详情 2019-06-22
超A是什么意思 你好a表达的是什么
超A是什么意思 你好a表达的是什么 2019-06-06
抖音撒撒累累是什么歌 撒撒累累张艺兴歌曲名字
抖音撒撒累累是什么歌 撒撒累累张艺兴歌曲名字 2019-06-05
返回顶部