首页>建站相关>利用js提取用于百度抓取诊断的链接

利用js提取用于百度抓取诊断的链接

站长平台一般提供对站点链接的诊断功能,以判断站点的某一个或某几个链接能否被正常使用。这个操作被认为可以主动吸引搜索引擎的蜘蛛爬取站点,所以一度被滥用。而平台也采取了对应的措施,比如百度就限制每个站点每周仅允许使用70次抓取诊断。

pickup_link_from_sitemap_p1

用于抓取诊断的链接并不是完整的站点链接,这个工具不需要提交站点的主域名部分,所以实际操作中,还需要从完整的网址中截取,因为是比较规律性的操作,不想挨个去复制,正好站点有现成的sitemap页面,就想偷个小懒,直接用js提取sitemap中靠前的几条链结尝试一下效果。

pickup_link_from_sitemap_p2

sitemap一般是xml格式的文件,这类文件也可以利用js方便的进行处理,按下f12打开浏览器的工作台,在console窗口中输入如下命令,就可以提取到所有“loc”标签所包裹的链接:

links = document.getElementsByTagName('loc');

pickup_link_from_sitemap_p3

上一条语句提取到的是包含标签的内容数组,如果仅需要其中某一个键值的文本数据,我们需要可以使用如下的命令:

links[1].textContent

pickup_link_from_sitemap_p4

成功提取到了链接,接下来我们需要分割获取到的文本,以获取去掉主域名之后的部分,因为本博客的域名后缀为“top”,所以就用“top/”来分割字符串:

inks[1].textContent.split("top/");

pickup_link_from_sitemap_p5

可以看到返回数组的第二部分就是我们所需要提取的字符串,因为一周最多只能提取70条,所以我们并不需要提取所有的链接,只需要提取比较靠前的几个链接就可以了,确定的单条数据的提取方式,现在来为js语句添加一个循环:

links=document.getElementsByTagName('loc');
for(i=0;i<80;i++){
    res=links[i].textContent.split("top/");
    console.log(res[1]);
}

最终获取到的结果如下:

pickup_link_from_sitemap_p6

标签: javascript

移动端可扫我直达哦~

推荐阅读

javascript 2023-10-13

用jquery取代a链接的title说明文字

站点的标签页原来是类似下图左侧的,在标签后用括号的形式展示了文章数量,边栏本来就小,加了数字后感觉内容变长,也有点影响标签文字的识别,就想着改成下图右侧的形式。记录一下原来生成含数字标签的代码,方便以后修改时的查询:<?php ...

建站相关 javascript

javascript 2023-10-11

js正则表达式的匹配与替换操作

利用exec()可以提取到某一段字符串中的指定的值,比如有下面这样一行字符串:a='-aaaa-bbbb-cccc-';想要分别提取其中的连续的字符,即“aaaa”、“bbbb”、“cccc”,书写正则表达式如下,并利用exec()函...

建站相关 javascript

javascript 2023-10-09

双栏多栏主题图片的lazyload问题

想为全站添加lazyload效果,这样在图片加载成功后会得到一个渐变显示的效果,看起来酷酷的。使用jquery的lazyload老牌插件,先写的js效果,后添加的模块,左边栏的图片加载的好好的,等到右边栏输出缩略图时,就出现了问题。l...

建站相关 javascript

javascript 2023-09-27

php如何传递数据给前端的javascript

尝试写主题的时候遇到了需要利用后台的设置数据去改变前端javascript设置的需求,比如后台设置一个幻灯的轮播速度为“5000”毫秒,需要将这个数据传递给js插件“slidejs”。最初的做法是利用php直接输出一段标签,类似下面这...

建站相关 javascript

javascript 2023-05-28

利用js获取当前页面的域名与网络协议等信息

浏览器会在用户有历史搜索记录之后自动弹出一些关键词供用户选择。但弹出的窗口的位置往往距离输入框过近,弹窗样式也不是特别好看。所以准备参考360,记录用户的搜索关键词,以标签的形式放在弹出窗口中,当输入框获取到焦点时,弹出自定义的窗口,...

建站相关 javascript

javascript 2023-05-09

利用localStorage保存用户的浏览记录

尝试在页面上加载了一言,没事刷新页面就会看到一条新的记录。偶然刷到这样一句话:“大佬永远都觉得自己是萌新”,秉承这种态度的人,一方面可能是出自谦虚。另一方面,技术迭代日新月异,知识浩如烟海,能在某一方面保持拔尖的人,确实为数不多。说回...

建站相关 javascript

javascript 2023-04-27

利用console.time来测试一下js程序的执行效率

想测试一下自己的程序跑一圈需要多少时间,可以尝试启动一个计时器来跟踪它的占用时长。每一个计时器必须拥有唯一的名字。当以此计时器名字为参数调用 console.timeEnd() 时,浏览器将以毫秒为单位,输出对应计时器所经过的时间。启...

建站相关 javascript

javascript 2023-04-10

利用lazysizes.js实现图片懒加载

站点的专题图片稍有点大,恩,其实主要是服务器的带宽过小。导致访问的时候图片加载过慢,页眉部分会空出一块,直到加载结束。于是就想参照joe主题的样式,做一个图片懒加载的效果。joe主题使用了lazysizes实现图片的懒加载。于是查询了...

建站相关 javascript