基于文本密度的藏文网页正文提取方法

洛松求培; 安见才让

首页> 中文期刊> 《计算机时代》 >基于文本密度的藏文网页正文提取方法

基于文本密度的藏文网页正文提取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

互联网的发展带动了另一种形式的信息传播,人们越来越多地依赖于电子产品,Web网页也随之变为了最大的信息源,利用好这些资源便涉及信息提取.为了从Web网页中获取关键藏文信息,文章提出了基于文本密度的藏文网页正文提取方法,利用半结构化的HTML网页中正文内容的连续性特点,结合正则表达式过滤HTML标签.此方法针对主题型网页,类似新闻类网页中的正文提取具有较高的准确率.

著录项

来源
《计算机时代》 |2017年第8期|46-4751|共3页
作者
洛松求培; 安见才让;
展开▼
作者单位

青海民族大学计算机学院;

青海西宁 810007;

青海民族大学计算机学院;

青海西宁 810007;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
藏文信息; 藏文网页正文提取; HTML; Web网页;

相似文献

中文文献
外文文献
专利

1. 基于文本及符号密度的网页正文提取方法 [J] . 洪鸿辉 ,丁世涛 ,黄傲 . 电子设计工程 . 2019,第008期
2. 一种基于标点密度的网页正文提取方法 [J] . 杨钦 ,杨沐昀 . 智能计算机与应用 . 2015,第004期
3. 一种基于标点密度的网页正文提取方法 [J] . 杨钦 ,杨沐昀 . 智能计算机与应用 . 2015,第004期
4. 基于文本标点密度连续和的网页正文抽取 [J] . 汤佳杰 ,曹永忠 ,顾浩 . 计算机时代 . 2020,第001期
5. 基于文本块密度和标签路径覆盖率的网页正文抽取 [J] . 刘鹏程 ,胡骏 ,吴共庆 . 计算机应用研究 . 2018,第006期
6. 基于卡方统计量的藏文新闻网页关键词提取方法 [C] . Yu Hongzhi ,于洪志 ,Xu Tao . 第14届中国少数民族语言文字信息处理学术研讨会 . 2013
7. 结合块密度和标签路径特征的网页正文抽取方法研究 [A] . 刘鹏程 . 2017

基于文本密度的藏文网页正文提取方法

摘要

著录项

相似文献

相关主题

期刊订阅