搭建一个简单的小说网站教程

  • 2018-10-29
  • 0
  • 0

导语:
很早的时候就有个搭建小说网站的想法,没有会员,没有弹窗,没有广告,能够简简单单看看小说。现在看来有不少的优秀小说网站系统,可以满足快速搭建,快速爬取文章的效果;多方比较后,选择了比较小众的易读小说系统,既能快速的搭建网站,又有自带的爬取引擎,非常适合刚接触小说网站搭建的人来练手。

小说网站组成
1.主体框架,开源和非开源
2.文章获取,自动爬取和手动填充
3.组织结构,管理员和普通读者
4.运营体系,是否有广告,是否有会员,是否有阅读限制,是否有版权问题

易读小说系统
易读小说(https://www.51yd.org/)是国内的神秘大牛开发的,简单方便,适用于Windows系统和Linux系统,还提供了爬取的正则表达式的规则(http://rules.51yd.org/),更加灵活爬取其他的小说站点。

搭建和使用
搭建使用建议最好使用Centos系统,作者提供了一套自动化搭建的部署脚本。
安装具体操作如下:
1.进入安装目录
2.下载一件自动化部署安装包,然后解压

unzip YiDuInstaller-V1.x.xBeta.zip

3.进入解压好的目录,赋予install.sh脚本执行权限,

chmod +x install.sh

4.最后执行

sh install.sh

等待安装完毕

使用方式:
1.网站是Java开发,Tomcat作为应用,端口是8080,程序使用管理方式

service tomcat restart

2.网站是由Apache作为Web反向代理,配置文件是/etc/httpd/conf.d/proxy_ajp.conf,一般很少变更

service httpd restart

文章爬取
易读小说系统提供了自己的一套爬取引擎,默认路径是在/usr/local/spider/里面,启动非常简单./start.sh,但是文章爬取规则就比较复杂了。以下是自己的使用心得:
1.尽量选择一些更新稳定的网站。(最后发现笔趣阁之类的都是一个模板套路出来的)
2.规则的使用的变量就是正则表达式的匹配出来的结果。
3.通过http://rules.51yd.org/网站模拟出来的结果,换算成真正使用的xml文件。
以找寻小说编号的变量为实例:
我想爬取http://www.800txt.net的小说编号,那就去找最新更新的小说编号,因为爬取过来的时候想要的也是最新的,所以一般网站要么在首页有更新的列表,要么就在单独的更新列表。确认好了列表页面后,就要获得小说的编号变量,<span class=”s2″><a href=”http://www.800txt.net/book_(\d+)/”中的”(\d+)”就是编号变量,前面的一大串其实就是在匹配最好的获取内容。同理所有下面的变量都是要自己去网站找寻最好的匹配结果。

总结
小说网站的搭建初衷并非是为了商业运营,只是想体验技术带来的新感受,所以请在爬取其他正规网站的内容同时,请注意小说网站和小说作者的权益!

原创文章,转载请注明: 转载自周知非

本文链接地址: 搭建一个简单的小说网站教程

文章的脚注信息由WordPress的wp-posturl插件自动生成

评论

还没有任何评论,你来说两句吧