...
首页> 外文期刊>電子情報通信学会技術研究報告. 思考と言語. Thought and Language >XML文脊変換を目的としたセル分類およびセル変形に基づく表構造解析
【24h】

XML文脊変換を目的としたセル分類およびセル変形に基づく表構造解析

机译:用于XML文本转换的基于单元格分类和单元格转换的表结构分析

获取原文
获取原文并翻译 | 示例
           

摘要

本論文では,紙媒体の表をXMLスキーマやDTDに基づいたXML文書に変換する新しい方法を提案する。 本方式ではまず,文番画像に変換した義から鄭線で区切られたデータフィールドをセル特徴として抽出する.次に,各セル特徴をあらかじめ定めた5つのタイプに分類することによりセル配置が不規則な表を識別すると共に,特定のセルに対して変形処刑を尖施することにより規則正しいセル配置を形成する.ざらに,規則正しいセルの並びから行(和W)構造を抽出することにより階層的な表構造を構成し,得られた表構造をDOMツリーで記述する.さらに,XMLパーザーを剛、てDOMツリーをⅩHTMLに基づいたピボットⅩML文書(中間XML文書)に変換したあと,ピボットXML文杏に対して情報抽出処理と構造変換処理を適用することによりターゲットXML文書を生成する.科学技術文机  医共晶添付文乳マニュアル.約款,法令集など実際の文啓に含まれる表を用いた実験でⅩML文書変換性能を評価したところ良好な結果を得ることができた.
机译:在本文中,我们提出了一种基于XML模式和DTD将纸表转换为XML文档的新方法。在该方法中,首先,从转换为句子编号图像的含义中提取由Chung线分隔的数据字段作为单元特征。接下来,将每个像元特征分类为五种预定类型,以标识具有不规则像元排列的表,并对特定像元进行变形执行以形成规则像元排列。 ..大致地,通过从规则单元格序列中提取行(sum W)结构来构造分层表结构,并且在DOM树中描述所获得的表结构。此外,在将XML解析器转换为基于XHTML的刚性XML文档(中间XML文档)之后,通过将信息提取处理和结构转换处理应用于XML句子来应用目标XML文档。产生了。科学技术文卡医学研讨会文库手册。使用实际教育中包含的表(例如条款和条件以及法律手册)在实验中评估XML文档转换性能时,获得了良好的结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号