爬虫
爬虫的相关文献在1989年到2023年内共计1739篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、信息与知识传播
等领域,其中期刊论文456篇、会议论文1篇、专利文献1282篇;相关期刊260种,包括无线互联科技、电脑编程技巧与维护、电脑知识与技术等;
相关会议1种,包括第三届全国搜索引擎和网上信息挖掘学术研讨会等;爬虫的相关文献由3304位作者贡献,包括范渊、杨溥、郭军等。
爬虫
-研究学者
- 范渊
- 杨溥
- 郭军
- 周东
- 廖耀华
- 张军
- 徐蔚然
- 李巍
- 贾西贝
- 崔志伸
- 杨杰
- 王俊
- 陈峰
- 孙德彬
- 王伟
- 不公告发明人
- 刘鑫琪
- 崔广宇
- 张雷
- 曾剑平
- 杨柳
- 柳超
- 王锦群
- 王飞
- 谢强
- 郑禄
- 陈开冉
- 雷建云
- 马尧
- 马岩
- 高峰
- 严澜
- 刘佳
- 李可欣
- 潘峰
- 王儒敬
- 王磊
- 肖军
- 邓楚健
- 邹维
- 陈晨
- 黎小为
- 丁伟
- 丛磊
- 于俊凤
- 从磊
- 何有树
- 傅彦
- 刘庆
- 刘涛
-
-
吴志攀;
林贤涛
-
-
摘要:
现代生活中,因工作、学习和生活压力导致的抑郁症的发生率有所增加。为了及时发现抑郁情绪并进行积极的心理疏导,本文开发了一款智能情绪检测与疏导的应用程序。该系统通过不断深度学习,最终做到能够识别用户情绪并给出相应的情绪疏导。
-
-
陆莉莉
-
-
摘要:
社交网络用户言论及关联性问题一直是舆情监控的一个重要工作和难点问题,针对用户不当言论及同一言论下不同用户之间的关联关系,文中通过爬虫和深度学习方法,以及大数据分析平台实现了针对用户不当评论信息来进行关联挖掘,通过爬取微博社交平台数据验证了论文提出的系统架构和方法,并取得了不错的效果。
-
-
孙琳;
徐文正;
武莹莹
-
-
摘要:
为了提高网络工程专业学生对于复杂工程问题的解决能力,本文提出了将爬虫技术融合进企业场景的复杂工程问题的实训方案。实践的效果显示,学生在基于企业场景的复杂工程问题解决过程中,培养了分析、检索、解决、总结和合作的综合能力。
-
-
王明乾;
邓鹏;
倪林
-
-
摘要:
随着科学技术的不断发展,各类新型武器装备层出不穷,武器装备信息呈现出的来源更加广泛、形式更加多样、处理更加复杂的态势,如何快速获取、处理、分析武器装备信息对于武器装备的研究论证、开发以及作战运用具有重要意义。论文利用爬虫、文本预处理技术,从门户网站抓取大量武器装备相关信息,构建了武器装备领域的语料库,对基于深度学习的武器装备语料的自动分类方法进行了研究,并提出了基于Attention-CNN的武器装备语料分类方法。实验结果显示该方法准确率为0.9756、召回率为0.9744、F1-score为0.9744,具有较高的分类效果。实验结果表明Attention-CNN方法能够大大提高武器装备相关信息获取、分析效率,对于辅助情报分析人员开展武器装备情报分析工作,为高新武器装备研发、作战运用提供信息保障具有重要意义。
-
-
钱贝贝;
陈志波
-
-
摘要:
随着大数据时代的到来,互联网技术的快速发展,人们的听歌模式也发生了翻天覆地的变化,音乐数字化给人们的生活带来了便利,在线音乐播放成为主流。听音乐是当代年轻人最常见的解压方式之一,随之而来的在线音乐平台更是层出不穷,其中的网易云音乐最受当代年轻人的青睐。为了让用户更加清晰地了解音乐类型的分布、音乐潮流趋势,文章利用Python网络爬虫技术,从网易云网站爬取相关数据,对音乐类型、音乐播放数量以及评论等多个角度进行分析,并使用Python可视化库中的Matplotlib对数据进行可视化分析,用图表的形式,从多重角度对音乐进行分析,让用户更加清晰地了解音乐类型的分布、音乐潮流趋势,为用户选择音乐提供一个参考。
-
-
隆征帆;
杨柳;
张星
-
-
摘要:
设计了一种宏观与微观相结合的文献分析基本框架.首先,基于统计学的平均思想提出了一种文献质量指标评价体系.然后,基于爬虫和统计技术并借助于Python编程语言丰富而强大的标准库和第三方库,构建并编程实现了一个能完成文献自动收集和分析的智能科研辅助系统.实验结果表明,用户输入检索条件后,系统能自动收集中国知网上相关文献信息并快速有效地向用户呈现一份图文并茂的文献分析报告.
-
-
陈晓;
彭湃;
李新;
陈鹏
-
-
摘要:
在各大电商营业平台(如淘宝,天猫等)上,商家间的竞争愈演愈烈。因此诱发部分商家不惜通过不公平竞争的手段来提高自家店铺的人气和销量,其中设置商品虚假价格是淘宝中SKU作弊最常见的一种行为。为了识别SKU作弊的这种设置虚假价格的行为,通过分析研究有关商城平台虚假评论的检测方法,通过python爬虫技术爬取淘宝中各类商品的商品数据生成信息文本,然后基于淘宝运营下商品价格设置规则下划分数据正负样本,由此构建价格信息向量化特征作为模型的输入,后用机械学习中的集成学习方法随机森林进行模型验证。实验表明对该类数据样本的正负样本识别的准确率,召回率,F1值均达到了96%以上,同时与其他分类算法作对比实验,结果证明该方法的检测效果最好。
-
-
-
张瑶
-
-
摘要:
本文探讨爬虫爬取数据行为的正当性标准。首先从爬虫协议的性质出发,认为由于爬虫协议有人为设置以排除和限制竞争的可能,故不能想当然地作为判断爬取行为是否正当的标准,爬取行为是否正当仍然要从《反不正当竞争法》所保护的法益出发。进而分析了经营者、其他经营者、消费者三方主体间的两对关系,认为判断爬取行为是否正当要将目光放在爬取的次数、数量、使用方式以及何为处理信息的“合理范围”上,从而均衡各方利益,促进信息流通,鼓励创新。
-
-
章继刚
-
-
摘要:
Akamai监测发现,针对中国零售和电子商务行业的恶意僵尸网络活动在春节前后激增,爬虫攻击给电子商务的全球化拓展带来极大的挑战。数字时代,网购已成为人们日常购物消费的主要渠道,受新冠肺炎疫情影响,为减少不必要的接触,网购的用户活跃度也得到较大地增长。电商正成为爬虫攻击的主战场Akamai监测发现,从去年“双十一”到今年春节,再到今年北京冬奥会,这期间电子商务流量呈现爆发式增长,针对电子商务的爬虫攻击与以往相比也呈现多样化、复杂化和高频化的特征。
-
-
郑冬冬;
赵朋朋;
崔志明
- 《第三届全国搜索引擎和网上信息挖掘学术研讨会》
| 2005年
-
摘要:
随着Web的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由Deep Web后台数据库动态产生的.在这种情况下,信息集成就更加需要Web爬虫来自动获取这些页面以进一步地处理数据.为了帮助用户完成这样的任务,提出一种用于搜集Deep Web页面的爬虫的设计方法.此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自Web站点的导航模式来识别自动填写表单时所需进行的路径导航.通过对来自不同领域的Deep Web站点的大量实验,验证了此方法是非常有效的。