接上一篇《Python 爬虫:抓取知乎某一话题下的全部问题》,需要说明的是我换了开发环境及一些工具库,现在用的是
环境:Python 3.5HTTP请求:requestXML处理:BeautifulSoup + lxml
能够抓取一个话题下的问题后,我在想要如何抓取知乎全站数据呢?传统的方法,随便从某一个页面(通常是首页)开始抓取,然后提取页面中的URL,再根据提取到的URL去抓下一个页面。但对于新手,感觉一开始就这样处理,难度挺大...
前两天做query分析时候,需要从20w随机query中筛选出包括股票实体的query,股票实体大概5000多个。于是写了个循环处理,代码如下:
# 读取query
with open('query_20w.txt', 'r', encoding='utf-8') as fq:
query = fq.readlines()
# 读取股票实体
with open('entity.txt', 'r', encoding='utf-8') as fe:
entity = fe.readlines()
# 用两层循环做query筛选
for q in query:
q = q.strip()
...
去年年底的时间,决定改用hexo在github上建设静态博客。12月24日将ghost觉得还可以的文章都备份下来,随后的几天开始折腾hexo,大概26号基本搞定。
碰到了两个坑:使用git同步到github问题报错,后来发现可以改用ssh的方式,终于搞定。随后又发现每次同步CNAME文件都会被删除,后来把CNAME文件放到source文件夹中得以解决。
我现在写博客的流程基本上是:在Stackedit上写文章,实时同步到Google Drive,完...
因为自己在做搜索产品,希望能对搜索技术有些了解,偶尔也会做些数据及文本方面的分析,所以今年给自己设了一个学习Python的任务,方向就是爬虫及数据分析。
在大学学过一点C,虽然从来没有写出过一个完整的程序,但对编程的基本概念(比如变量、函数、类型、对象)都有了解。去年就想着学Python,基本语法都看过,只是每当要实现一个完整功能的时候,都觉得挺难而放弃。所以这次不准备系统看语法了,直接...
在 Windows 上,ipython notebook 默认的工作目录是 C 盘的用户目录,实际使用中,可能希望切换到其他目录,比如 D 盘。方法其实也非常简单,只需要在命令行下切换到工作目录,再执行ipython notebook启动 ipython notebook 即可。如下:
C:\Users\Administrator>d:
D:\>cd @me\coding
D:\@me\coding>ipython notebook
[I 20:05:48.002 NotebookApp] Serving notebooks from local directory: D...
今天刚好9号,上个月同一天发表了《博客迁至farbox》,真是巧了。
确实非常喜欢farbox的理念,甚至还开通了付费账户,可惜使用过程中发现稳定性不好,经常发现同步异常,尤其是在多台电脑上写作的时候,这对于博客来说是致命的问题,无论产品理念有多么优秀。所以最终我回到了ghost。也恰巧ghost刚发布7.0版,后台交互进行了重构,体验明显提升。更新日志提到在这版中做了很多api的铺垫工作,相信未来开放a...
二月份在阿里云上用ghost搭过了一个博客,非常喜欢它的简洁,但作为一个新生的博客程序,功能并不完善,比如:没有分类功能,markdown不支持表格等。于是又开始折腾,寻找下一个博客平台。
关于博客平台可以分为两大类:动态博客和静态博客,区别主要体现在是否用到数据库。动态博客的所有信息都是存储在数据库中的,当用户访问博客时,服务器会根据请求,由博客程序从数据库中取数据动态的拼凑出一个html...
当初注册 skyuehu.com 是就想同时拿下 skyue.com,结果这个域名已经被注册了,2015 年 1 月 20 日到期,苦苦等到这一天,发现还有赎回期、等待删除期之类的环节,于是有等了几十天,在 3 月 29 日凌晨两点多抢注到这个域名。
随后关停了博客,进行域名备案。前天备案通过,现在 skyue.com 可以正式访问了,此前的 skyuehu.com 停止使用。
ghost 博客安装、使用问题汇总
本文旨在记录个人折腾 ghost 博客过程中的技术经验,以便自己、也供网友查阅。
说明:
本博客用的是阿里云服务器 + Ubuntu 12.04 LTS。
本博客的 ghost 是 ghostchina 提供的中文集成版。
本博客主题基于 mutiny,做了简单的本地化处理。
Q:怎么设置国内邮箱
官方教程应该是只提供了 Mailgun、Amazon Mail、Gmail 三个邮箱的设置,它们的配置文件各不相同,不具通用性。下...
我的豆瓣主页上博客的文章
以前看过一些豆友的豆瓣主页有博客文章,今天去研究了一下,方法不难,记录如下。
上图便是我的豆瓣主页上的展示效果。
一、将自己的博客添加到豆瓣九点
登录豆瓣九点,进入「我的订阅」,点击「添加订阅」将自己的博客加入到订阅列表。
二、认领自己的博客
经过上面一步,豆瓣九点便灰为你的博客建立一个页面,如同每一本书、每一部电影的页面一样,所有的豆瓣用户都可以在这个...