加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

如何使用Photon高效率提取网站数据

发布时间:2018-08-18 01:53:06 所属栏目:移动互联 来源:佚名
导读:技术沙龙 | 邀您于8月25日与国美/AWS/转转三位专家共同探讨小程序电商实战 Photon是一种高效率的的网络爬虫,可从目标中提取URL,文件以及各类情报。其通过多线程大大加快数据提取进程。 项目地址: https://github.com/s0md3v/Photon 主要特点 Photon提供

选项 -s 或 –seeds,使用示例:

  1. python photon.py -u "http://example.com" --seeds "http://example.com/blog/2018,http://example.com/portals.html" 

你可以使用此选项添加自定义子URL,要以逗号分隔。

指定user-agent(s)

选项 –user-agent,使用示例:

  1. python photon.py -u "http://example.com" --user-agent "curl/7.35.0,Wget/1.15 (linux-gnu)" 

你可以使用此选项使用自己的用户代理,以逗号分隔。此选项仅用于帮助用户在不修改默认user-agents.txt文件的情况下使用特定用户代理。

自定义正则表达式模式

选项 -r 或 –regex,使用示例:

  1. python photon.py -u "http://example.com" --regex "d{10}" 

通过使用此选项指定正则表达式模式,可以在抓取期间提取字符串。

导出格式化结果

选项 -e 或 –export

通过 -e 选项,你可以指定要保存文件的输出格式,使用示例:

  1. python photon.py -u "http://example.com" --export=json 

目前支持的格式:json

跳过数据提取

选项: –only-urls,使用示例:

  1. python photon.py -u "http://example.com" --only-urls 

该选项会跳过提取js文件等数据,当你只需要抓取目标时,该选项可以派上用场。

更新

选项 –update,使用示例:

  1. python photon.py --update 

如果使用此选项,Photon会检查更新。如果有新的版本,Photon会下载并将更新文件合并到当前目录中,Photon不会覆盖其他文件。

Ninja模式

选项 –ninja

此选项启用Ninja模式。在该模式下,Photon会使用以下网站代表你发出请求。

  1. codebeautify.org 
  2. photopea.com 
  3. pixlr.com 

转储DNS数据

选项 –dns,使用示例:

  1. python photon.py -u http://example.com --dns 

创建显示目标域名的DNS数据的图像。目前不支持目标是子域。

如何使用Photon高效率提取网站数据

【编辑推荐】

  1. DB-Engines 8 月数据库榜单,Oracle 受新版本策略影响
  2. 腾讯云丢失数据被索赔1100万!真相大白
  3. 诸葛辉:未来已来 大数据时代的中国智造
  4. 腾讯云“数据丢失”引思考:云服务究竟安全不安全?
  5. 数据工程师必看:分析数据时常见的 7 类统计陷阱
【责任编辑:张燕妮 TEL:(010)68476606】
点赞 0

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读