你好,欢迎来到电脑编程技巧与维护杂志社! 杂志社简介广告服务读者反馈编程社区  
合订本订阅
 
 
您的位置:杂志经典 / 网络与通信
Boost.Regex网页信息抽取(六)
 

CString CHtmlcodeIE::ExtractTextAImg(CString htmlcode)

{

    int count=0;

    CString str;

    CString ret,retstr,groupstr;

    CString regexstr,countstr;

    CString textstr,astr,imgstr;

    //提取超链接表达式

    astr="(?:option .*?value=[\"|\'| ](.*?)[\"|\'].*?)?(?:a .*?href=[\"|\'| ](.*?)[\"|\'| ].*?)?";

    imgstr="(?:IMG .*?src=[\"|\'](.*?)[\"|\'].*?)?"; //提取图片正则表达式

    textstr=">([^>]+)<";//提取文本正则表达式

    regexstr=astr+imgstr+textstr;

    boost::regex express(regexstr,Para);

    boost::cmatch result;

    str=htmlcode;  

    while(boost::regex_search(str, result, express))

    {  

        groupstr="";

        for(int i=result.size()-1; i>=1; i--)

        {           

            ret = result[i].str().c_str();

            ret.TrimLeft();

            ret.TrimRight();

            if(i==result.size()-1)

                ret=DeleteTag(ret);

            if(ret!="")

                groupstr=groupstr+ret+"   ";    

        }      

        if(groupstr!="")

        {

            count++;

            countstr.Format("%d",count);

            retstr=retstr+countstr+" "+groupstr+"\r\n";        

        }

        str = result[result.size()].second;

    }

    return retstr;

}
  推荐精品文章

·2024年12月目录 
·2024年11月目录 
·2024年10月目录 
·2024年9月目录 
·2024年8月目录 
·2024年7月目录 
·2024年6月目录 
·2024年5月目录 
·2024年4月目录 
·2024年3月目录 
·2024年2月目录 
·2024年1月目录
·2023年12月目录
·2023年11月目录

  联系方式
TEL:010-82561037
Fax: 010-82561614
QQ: 100164630
Mail:gaojian@comprg.com.cn

  友情链接
 
Copyright 2001-2010, www.comprg.com.cn, All Rights Reserved
京ICP备14022230号-1,电话/传真:010-82561037 82561614 ,Mail:gaojian@comprg.com.cn
地址:北京市海淀区远大路20号宝蓝大厦E座704,邮编:100089