WordPress自动抓取发布文章-泓源视野

WordPress自动抓取发布文章

WordPress自动抓取发布文章

很多用WordPress建站的朋友都有这样的苦恼,网站建好了,没有时间自己写文章,慢慢就荒废了,还有的朋友在浏览器收集好多喜欢的博客网站地址,因为收集的网址太多太杂,从此也很少点开看。其实只要几行代码我们就可以完全利用Python和WordPress建一个属于自己的文章抓取站点。主要是运用python newspaper xmlrpc 模块编写实现网页爬虫,通过正则匹配爬取网页内容后,用xmlrpc自动发布到WordPress部署的网站。然后采用crond定时抓取。

  • python抓取URL
  • newspaper解析页面
  • xmlrpc上传到wordpress
#/usr/bin/env python#coding=utf8import httplibimport hashlibimport urllibimport randomimport urllib2import md5import reimport jsonimport sysimport timefrom lxml import htmlfrom wordpress_xmlrpc import Client, WordPressPostfrom wordpress_xmlrpc.methods.posts import NewPostfrom newspaper import Article
reload(sys)
sys.setdefaultencoding('utf-8')
time1 = time.time()#得到html的源码def gethtml(url1): #伪装浏览器头部 headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } req = urllib2.Request( url = url1, headers = headers ) html = urllib2.urlopen(req).read() return html#得到目标url源码code1 = gethtml('http://whuhan2013.github.io/archive/')
tree = html.fromstring(code1)#print treetargeturl=tree.xpath("//li[@class='listing-item']/a/@href")def sends(): # print targeturl for i in range(len(targeturl)): #u=content1[i][0] url="http://whuhan2013.github.io"+targeturl[i] print url a=Article(url,language='zh') a.download() a.parse() #print a.text dst=a.text tag='test' title=a.title #print 'here2' #链接WordPress,输入xmlrpc链接,后台账号密码 wp = Client('http://119.29.152.242/wordpress/xmlrpc.php','Ricardo','286840jjx')#示例:wp = Client('http://www.python-cn.com/xmlrpc.php','username','password') post = WordPressPost() post.title = title # post.post_type='test'  post.content = dst post.post_status = 'publish' #发送到WordPress #print 'here3' wp.call(NewPost(post)) time.sleep(3) print 'posts updates'if __name__=='__main__': sends() f1.close()

最后,可以通过crontab定时运行程序,采集指定文章发送到WordPress

参考链接:运用Python实现WordPress网站大规模自动化发布文章

加上a.topimgage显示图片参考

https://blog.csdn.net/xc_zhou/article/details/99999973
#https://www.php.cn/blog/detail/19498.html

图片或略缩图实列参考:

https://python.hotexamples.com/fr/examples/wordpress_xmlrpc/WordPressPost/thumbnail/python-wordpresspost-thumbnail-method-examples.html

源码:wordpress自动发布

https://github.com/whuhan2013/pythoncode/tree/master/wordpress

访问:良有以也的博客

wordpress支持Markdown与代码高亮,丰富文章样式,文章访问量插件等

博客插件

效果如下

WordPress自动抓取发布文章插图

本文由 泓源视野 作者:admin 发表,其版权均为 泓源视野 所有,文章内容系作者个人观点,不代表 泓源视野 对观点赞同或支持。如需转载,请注明文章来源。
9

发表评论

Protected with IP Blacklist CloudIP Blacklist Cloud
您是第8235567 位访客, 您的IP是:[3.15.27.232]