基于Gecko浏览器内核的谷歌翻译爬虫

李健

首页> 中文期刊> 《现代计算机：下半月版》 >基于Gecko浏览器内核的谷歌翻译爬虫

基于Gecko浏览器内核的谷歌翻译爬虫

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

异步加载技术在Web中广泛使用,这给网络爬虫开发带来一些困难。本文提出一种基于Gecko浏览器内核的异步数据采集方法。此方法模拟浏览器加载网页,完成用户输入,触发执行脚本,最终获得目标数据。应用上述方法,设计并实现了面向谷歌翻译的专用爬虫,能够批量生成双语平行语料,并采用轮询检测机制进一步提高爬虫效率。实验结果表明:本文所提出的解决方案是行之有效的,如何模拟用户操作是实现爬虫的基础,如何检测目标数据是提高效率的关键。

著录项

来源
《现代计算机：下半月版》 |2021年第18期|32-37|共6页
作者
李健;
展开▼
作者单位

战略支援部队信息工程大学;

洛阳471003;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
网络爬虫; 异步加载; 浏览器内核; 谷歌翻译;

相似文献

中文文献
外文文献
专利

1. 基于翻译方法的计算机翻译工具比较--以Systran、谷歌翻译、Trados为例 [J] . 王晶 ,谢聪 . 英语广场(下旬刊 ) . 2016,第007期
2. 基于网络爬虫的单词翻译器设计与研究 [J] . 周游宇 ,孙洪波 ,梅良才 . 科技资讯 . 2021,第016期
3. 基于Python在线翻译爬虫的实现 [J] . 王崇刚 . 电脑知识与技术 . 2019,第028期
4. 基于多线程和翻译的网络爬虫鸟类音频数据采集系统设计与实现 [J] . 刘江 ,刘国玺 ,张雁 . 现代计算机（专业版） . 2018,第030期
5. 基于谷歌翻译及Doc2vec的中英句子相似度计算 [J] . 王闻慧 . 电脑知识与技术 . 2019,第015期
6. 基于谷歌两步验证的登录认证安全隐患改进研究 [C] . 马自苇 ,谭硕 . 2020互联网安全与治理论坛 . 2020
7. 基于谷歌神经机器翻译的英汉翻译研究 [A] . 马旭强 . 2019

基于Gecko浏览器内核的谷歌翻译爬虫

摘要

著录项

相似文献

相关主题

期刊订阅