4.完成html文件读取|获取title|获取content|构建url|调试(C++)
解析html代码结构编写
- 建立一个util.hpp,是一个工具集,把所有的工具内容写到这里
touch util.hpp
- 编写util.hpp
#include <iostream>
#include <string>
#include <fstream>
namespace ns_util{
class FileUtil{
public:
static bool ReadFile(const std::string &file_path, std::string *out)
{
return true;
}
};
}
提取title
提取content,本质是进行去标签
3. 编写parser.cc第二步的代码结构
static bool ParseTiltle(const std::string &file, std::string *title)
{
return true;
}
static bool ParseContent(const std::string &file, std::string *content)
{
return true;
}
static bool ParseUrl()
{
return true;
}
bool ParseHtml(const std::vector<std::string> &files_list, std::vector<DocInfo_t> *results)
{
for(const std::string &file : files_list){
//读取文件,Read();
std::string result;
if(!ns_util::FileUtil::ReadFile(file, &result)){
continue;
}
DocInfo_t doc;
//解析指定的文件,提取title
if(!ParseTitle(result, &doc.title)){
continue;
}
//解析指定的文件,提取content,就是去标签
if(!ParseContent(result, &doc.content)){
continue;
}
//解析指定的文件路径,构建url
if(!ParseUrl()){
continue;
}
//done,一定是完成了解析任务,当前文档的所有的相关结果都保存在了doc里面
results->push_back(doc);
//bug:todo;细节,本质会发生拷贝,效率可能会比较低
}
return true;
}
编写文件读取代码
- 编写util文件
#include <iostream>
#include <string>
#include <fstream>
namespace ns_util{
class FileUtil{
public:
static bool ReadFile(const std::string &file_path, std::string *out)
{
std::ifstream in(file_path, std::ios::in);
if(!in.is_open()){
std::cerr << "open file" << file_path << " error" << std::endl;
return false;
}
std::string line;
while(std::getline(in, line)){ //如何理解getline读取到文件结束:getline的返回值是一个&,while判断的是一个bool类型,本质是因为返回的对象当中重载了强制类型转化
*out += line;
}
in.close();
return true;
}
};
}
编写获取title代码
在整个文档里面去搜索title关键字和/title关键字
找到title关键字的开始位置,和/title关键字的开始位置
让头位置+上title的大小,就是有效区的起始,后面的查找到的位置,这是一个前闭后开的区间
static bool ParseTitle(const std::string &file, std::string *title)
{
std::size_t begin = file.find("<title>");
if(begin == std::string::npos){
return false;
}
std::size_t end = file.find("</title>");
if(end == std::string::npos){
return false;
}
begin += std::string("<title>").size();
if(begin > end){
return false;
}
*title = file.substr(begin, end - begin);
return true;
}
获取文档的content内容
在进行遍历的时候,只要碰到了>右标签,就意味着当前的标签被处理完毕
只要碰到了<左标签,就意味着新的标签开始了
static bool ParseContent(const std::string &file, std::string *content)
{
//去标签,基于一个简易的状态机
enum status{
LABLE,
CONTENT
};
enum status s = LABLE;
for(char c : file){
switch(s){
case LABLE:
if(c == '>')
s = CONTENT;
break;
case CONTENT:
if(c == '<')
s = LABLE;
else{
//不想保留原始文件中的\n,因为想用\n作为html解析之后文本的分隔符
if(c == '\n')
c = ' ';
content->push_back(c);
}
break;
default:
break;
}
}
return true;
}
编写构建url代码
boost库的官方文档,和下载下来的文档是有路径的对应关系的
官⽹URL样例:
https://www.boost.org/doc/libs/1_78_0/doc/html/accumulators.html
我们下载下来的url样例:
boost_1_78_0/doc/html/accumulators.html
我们拷⻉到我们项⽬中的样例:
data/input/accumulators.html
//我们把下载下来的boost库 doc/html/* copy data/input/
url_head = "https://www.boost.org/doc/libs/1_78_0/doc/html";
url_tail = [data/input](删除) /accumulators.html -> url_tail = /accumulators.html
url = url_head + url_tail ; 相当于形成了⼀个官⽹链接
编写parser.cc
static bool ParseUrl(const std::string &file_path, std::string *url)
{
std::string url_head = "https://www.boost.org/doc/libs/1_87_0/doc/html";
std::string url_tail = file_path.substr(src_path.size());
*url = url_head + url_tail;
return true;
}
bool ParseHtml(const std::vector<std::string> &files_list, std::vector<DocInfo_t> *results)
{
for(const std::string &file : files_list){
//读取文件,Read();
std::string result;
if(!ns_util::FileUtil::ReadFile(file, &result)){
continue;
}
DocInfo_t doc;
//解析指定的文件,提取title
if(!ParseTitle(result, &doc.title)){
continue;
}
//解析指定的文件,提取content,就是去标签
if(!ParseContent(result, &doc.content)){
continue;
}
//解析指定的文件路径,构建url
if(!ParseUrl(file, &doc.url)){
continue;
}
//done,一定是完成了解析任务,当前文档的所有的相关结果都保存在了doc里面
results->push_back(doc); //bug:todo;细节,本质会发生拷贝,效率可能会比较低
}
return true;
}
调试
void ShowDoc(const DocInfo_t &doc)
{
std::cout << "title: " << doc.title << std::endl;
std::cout << "content: " << doc.content << std::endl;
std::cout << "url: " << doc.url << std::endl;
}
make链接,运行文件
Chapter 46. Boost.YAP - 1.87.0
成功获取到官方url