delphi 正则提取html中的内容
function ExtractTextFromHTML(const HTML: string): string;
var
RegEx: TRegEx;
begin
Result := HTML;
// 移除<script>标签及其内容
Result := TRegEx.Replace(Result, '<script.*?>.*?</script>', '', [roIgnoreCase, roSingleLine]);
// 移除<style>标签及其内容
Result := TRegEx.Replace(Result, '<style.*?>.*?</style>', '', [roIgnoreCase, roSingleLine]);
// 移除所有HTML标签
Result := TRegEx.Replace(Result, '<[^>]+>', '', [roIgnoreCase]);
// 去除网址(新增部分)
// 匹配 http/https/ftp 协议开头的URL
Result := TRegEx.Replace(Result, '\b(https?|ftp)://[^\s/?#$%&]*[^\s?#$%&/]', '');