sitemap/README.md

43 lines
829 B
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

## 简介
通过爬取网站生成sitemap.xml方便搜索引擎收录本站链接
## 使用
安装依赖:
```sh
pip3 install -r requirement.txt
```
修改get_url.py
```py
# 当前域名的http链接
url_root = 'https://git.zeekling.cn'
# 需要抓取的根链接,可以多写几个
url_mine_list = [
'https://git.zeekling.cn/',
'https://git.zeekling.cn/zeekling'
]
# 抓取的最大栈深度默认为2
max_depth = 2
# 不需要写进sitemap.xml的链接
url_robot_arr = [
'/user/sign_up',
'/user/login',
'/user/forgot_password'
]
```
修改sitemap.xml位置,sitemap.py
```py
# 第一个参数为sitemap.xml的位置
create_xml('sitemap.xml', get_url.url_res_final)
```
修改完了之后执行
```sh
./sitemap.py
```
## 存在问题
- 爬取栈深度设置的较大之后爬取会比较慢