sitemap/README.md

47 lines
932 B
Markdown
Raw Permalink Normal View History

2020-03-21 14:23:46 +00:00
## 简介
2020-03-21 12:55:40 +00:00
2020-04-20 12:14:20 +00:00
通过爬取网站生成sitemap.xml方便搜索引擎收录本站链接。
sitemap在线样例
- https://git.zeekling.cn/sitemap.xml
- https://img.zeekling.cn/sitemap.xml
2020-03-21 14:23:46 +00:00
## 使用
安装依赖:
```sh
pip3 install -r requirement.txt
```
2020-03-22 05:22:31 +00:00
修改get_url.py
```py
# 当前域名的http链接
url_root = 'https://git.zeekling.cn'
# 需要抓取的根链接,可以多写几个
url_mine_list = [
'https://git.zeekling.cn/',
'https://git.zeekling.cn/zeekling'
]
# 抓取的最大栈深度默认为2
max_depth = 2
# 不需要写进sitemap.xml的链接
url_robot_arr = [
'/user/sign_up',
'/user/login',
'/user/forgot_password'
]
```
修改sitemap.xml位置,sitemap.py
```py
# 第一个参数为sitemap.xml的位置
create_xml('sitemap.xml', get_url.url_res_final)
```
修改完了之后执行
```sh
./sitemap.py
```
2020-03-22 14:01:51 +00:00
## 存在问题
- 爬取栈深度设置的较大之后爬取会比较慢