...
首页> 外文期刊>電子情報通信学会技術研究報告. 情報理論. Information Theory >最頻N-gramを考慮した文法生成法に基づくデータ圧縮法
【24h】

最頻N-gramを考慮した文法生成法に基づくデータ圧縮法

机译:考虑最频繁N-gram的基于语法生成方法的数据压缩方法

获取原文
获取原文并翻译 | 示例
           

摘要

近年,Sequiturアルゴリズムや最頻digram統合法等のデータ系列の文法を用いたデータ圧縮法の研究が盛んに行われている。 文法を用いた圧縮法では,データ系列を直接符号化するのではなく,データ系列を生成するような文法を構成し,それを符号化する。 中村らによる最頻digram統合法では,データ系列を全て読み込み,連続する2記号であるdigramの出現頻度を求め,最頻digramをルールとする文法生成を行っている。 これに対して,神田らは,この文法の符号化に算術符号を適用することを前提とし,算術符号の理想符号長を計算しながら符号長の観点から最適な文法を生成する手法を提案している。 本研究では,神田らの手法と同様に算術符号の理想符号長を計算しながら文法生成を行うが,digramだけでなくより長く連続するN記号であるN-gramを考慮して文法生成を行う手法を提案する。 またカルガリーデータに対して本手法を適用し,シミュレーションに。 よる評価によって,その有効性を示す。更に系列長nのデータに対し提案手法の計算量及びメモリ量が神田らの手法と同様O(n)であることを示す。
机译:近年来,已经积极地进行了使用数据序列语法的数据压缩方法的研究,例如Sequitur算法和最频繁的二元图积分方法。在使用文法的压缩方法中,生成并编码生成数据序列的文法,而不是直接对数据序列进行编码。在Nakamura等人的最频繁的二元图积分方法中,读取整个数据系列,计算作为两个连续符号的二元图的出现频率,并使用最频繁的二元图作为规则生成语法。另一方面,Kanda等人提出了一种在将算术代码应用于该语法的编码的前提下,在计算算术代码的理想代码长度的同时,从代码长度的观点生成最佳语法的方法。 ing。在这项研究中,文法是在计算算术代码的理想代码长度时生成的,就像在Kanda等人的方法中那样,但是文法的生成不仅要考虑二元图,还要考虑作为较长连续N符号的N元图。提出一种方法。另外,该方法适用于卡尔加里数据进行仿真。有效性由评估显示。此外,表明,与Kanda等人的方法一样,对于序列长度为n的数据,所提出的方法的计算量和存储量为O(n)。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号