如何以文本格式从HTML标签中提取文本?
从 HTML 文件中提取文本的行为本质上相当于将网站内容复制并粘贴到记事本上。这听起来可能很简单,但如果您必须从数百万个 HTML 文件(网页)中提取文本,那就不会那么令人愉快了。
让我们深入研究本文,以更好地了解如何从文本格式的 HTML 标记中提取文本。
从 HTML 标记中提取文本
HTML 中的许多元素可用于赋予文本特定的含义。为了获得更多关于从文本格式的 HTML 标记中提取文本的想法,让我们看看以下示例。
示例
在以下示例中,我们运行脚本以从 HTML 标记中提取文本。
<!DOCTYPE html>
<html>
<body>
<script>
function gettext(html){
var tempDivElement = document.createElement("div");
tempDivElement.innerHTML = html;
return tempDivElement.textContent || tempDivElement.innerText || "";
}
var sentence= "<div><h1>Welcome to Tutorialspoint</h1></div>";
document.write(gettext(sentence));
</script>
</body>
</html>
当脚本执行时,它将生成由从上述脚本获取的数据组成的输出,并将其显示在网页上。
示例
考虑以下示例,我们正在运行脚本以从 HTML 标记获取文本。
<!DOCTYPE html>
<html>
<body>
<script>
var statement= "<div><h1>TutorialsPoint</h1><p> is the Best E-Learning</p></div>";
var result = statement.replace(/<[^>]+>/g, '');
document.write(result)
</script>
</body>
</html>
运行上述脚本时,将弹出输出窗口,其中包含通过运行网页上显示的脚本提取的文本。
以上就是如何以文本格式从HTML标签中提取文本?的详细内容,更多请关注双恒网络其它相关文章!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。



