你好,欢迎来到电脑编程技巧与维护杂志社! 杂志社简介广告服务读者反馈编程社区  
合订本订阅
 
 
您的位置:杂志经典 / 网络与通信
Boost.Regex网页信息抽取(三)
 

2.3 常用函数

boost::regex_match:匹配函数,用来判断所给的字符串与是否匹配,返回结果为bool型。

boost::regex_search:查找函数,用来在给定的字符串中寻找与给定正则表达式匹配的特定模式。

boost::regex_replace:替换函数,用来在给定的字符串中搜索所有给定的模式,对于每个匹配的部分,通过调用match_result::format来格式化字段,并将结果输出。

 

3 网页信息抽取

3.1网页信息抽取类CHtmlcodeIE设计与实现

1CHtmlcodeIE成员函数定义如下:

class CHtmlcodeIE 

{

public:

CHtmlcodeIE();

        virtual ~CHtmlcodeIE();

public:

        CString DeleteScriptTag(CString htmlcode); //去除脚本样式注释

        CString ExtractAllText(CString htmlcode);  //抽取所有文本

CString ExtractText(CString htmlcode);     //抽取所有非空文本

        CString ExtractTextAImg(CString htmlcode); //抽取文本链接图片

        CString ExtractTextA(CString htmlcode);    //抽取文本链接对

        CString ExtractImg(CString htmlcode);      //抽取所有图片

        CString DeleteTag(CString HtmlCode);      //过滤文本中的无用代码

};

  2CHtmlcodeIE成员函数实现如下:

#include "iostream.h"

#include "string.h"

#include <boost/regex.hpp>  //regex头文件

using namespace std;       //标准名字空间

#define Para boost::regbase::normal|boost::regbase::icase

CString CHtmlcodeIE::DeleteScriptTag(CString htmlcode)

{

    std::string s=(string)htmlcode; // CString类型转换位stirng类型

    boost::regex expression("(<script.*?>)(.*?)(</script>)", Para);//去除脚本
  推荐精品文章

·2024年12月目录 
·2024年11月目录 
·2024年10月目录 
·2024年9月目录 
·2024年8月目录 
·2024年7月目录 
·2024年6月目录 
·2024年5月目录 
·2024年4月目录 
·2024年3月目录 
·2024年2月目录 
·2024年1月目录
·2023年12月目录
·2023年11月目录

  联系方式
TEL:010-82561037
Fax: 010-82561614
QQ: 100164630
Mail:gaojian@comprg.com.cn

  友情链接
 
Copyright 2001-2010, www.comprg.com.cn, All Rights Reserved
京ICP备14022230号-1,电话/传真:010-82561037 82561614 ,Mail:gaojian@comprg.com.cn
地址:北京市海淀区远大路20号宝蓝大厦E座704,邮编:100089