折腾

折腾 3 分钟阅读

Python爬虫:模拟登录知乎

接上一篇《Python 爬虫:抓取知乎某一话题下的全部问题》,需要说明的是我换了开发环境及一些工具库,现在用的是 环境:Python 3.5HTTP请求:requestXML处理:BeautifulSoup + lxml 能够抓取一个话题下的问题后,我在想要如何抓取知乎全站数据呢?传统的方法,随便从某一个页面(通常是首页)开始抓取,然后提取页面中的URL,再根据提取到的URL去抓下一个页面。但对于新手,感觉一开始就这样处理,难度挺大...
Python爬虫:模拟登录知乎
折腾 1 分钟阅读

显示Python程序运行进度

前两天做query分析时候,需要从20w随机query中筛选出包括股票实体的query,股票实体大概5000多个。于是写了个循环处理,代码如下: # 读取query with open('query_20w.txt', 'r', encoding='utf-8') as fq: query = fq.readlines() # 读取股票实体 with open('entity.txt', 'r', encoding='utf-8') as fe: entity = fe.readlines() # 用两层循环做query筛选 for q in query: q = q.strip() ...
折腾 1 分钟阅读

hexo使用小结

去年年底的时间,决定改用hexo在github上建设静态博客。12月24日将ghost觉得还可以的文章都备份下来,随后的几天开始折腾hexo,大概26号基本搞定。 碰到了两个坑:使用git同步到github问题报错,后来发现可以改用ssh的方式,终于搞定。随后又发现每次同步CNAME文件都会被删除,后来把CNAME文件放到source文件夹中得以解决。 我现在写博客的流程基本上是:在Stackedit上写文章,实时同步到Google Drive,完...
折腾 2 分钟阅读

Python爬虫:抓取知乎某一话题下的全部问题

因为自己在做搜索产品,希望能对搜索技术有些了解,偶尔也会做些数据及文本方面的分析,所以今年给自己设了一个学习Python的任务,方向就是爬虫及数据分析。 在大学学过一点C,虽然从来没有写出过一个完整的程序,但对编程的基本概念(比如变量、函数、类型、对象)都有了解。去年就想着学Python,基本语法都看过,只是每当要实现一个完整功能的时候,都觉得挺难而放弃。所以这次不准备系统看语法了,直接...
折腾 1 分钟阅读

windows 上修改 ipython notebook 的工作目录

在 Windows 上,ipython notebook 默认的工作目录是 C 盘的用户目录,实际使用中,可能希望切换到其他目录,比如 D 盘。方法其实也非常简单,只需要在命令行下切换到工作目录,再执行ipython notebook启动 ipython notebook 即可。如下: C:\Users\Administrator>d: D:\>cd @me\coding D:\@me\coding>ipython notebook [I 20:05:48.002 NotebookApp] Serving notebooks from local directory: D...
折腾 1 分钟阅读

无折腾、不人生——回归ghost

今天刚好9号,上个月同一天发表了《博客迁至farbox》,真是巧了。 确实非常喜欢farbox的理念,甚至还开通了付费账户,可惜使用过程中发现稳定性不好,经常发现同步异常,尤其是在多台电脑上写作的时候,这对于博客来说是致命的问题,无论产品理念有多么优秀。所以最终我回到了ghost。也恰巧ghost刚发布7.0版,后台交互进行了重构,体验明显提升。更新日志提到在这版中做了很多api的铺垫工作,相信未来开放a...
折腾 1 分钟阅读

博客迁至 farbox

二月份在阿里云上用ghost搭过了一个博客,非常喜欢它的简洁,但作为一个新生的博客程序,功能并不完善,比如:没有分类功能,markdown不支持表格等。于是又开始折腾,寻找下一个博客平台。 关于博客平台可以分为两大类:动态博客和静态博客,区别主要体现在是否用到数据库。动态博客的所有信息都是存储在数据库中的,当用户访问博客时,服务器会根据请求,由博客程序从数据库中取数据动态的拼凑出一个html...
折腾 1 分钟阅读

博客换域名 skyue.com

当初注册 skyuehu.com 是就想同时拿下 skyue.com,结果这个域名已经被注册了,2015 年 1 月 20 日到期,苦苦等到这一天,发现还有赎回期、等待删除期之类的环节,于是有等了几十天,在 3 月 29 日凌晨两点多抢注到这个域名。 随后关停了博客,进行域名备案。前天备案通过,现在 skyue.com 可以正式访问了,此前的 skyuehu.com 停止使用。
折腾 1 分钟阅读

ghost博客安装、使用问题汇总

ghost 博客安装、使用问题汇总 本文旨在记录个人折腾 ghost 博客过程中的技术经验,以便自己、也供网友查阅。 说明: 本博客用的是阿里云服务器 + Ubuntu 12.04 LTS。 本博客的 ghost 是 ghostchina 提供的中文集成版。 本博客主题基于 mutiny,做了简单的本地化处理。 Q:怎么设置国内邮箱 官方教程应该是只提供了 Mailgun、Amazon Mail、Gmail 三个邮箱的设置,它们的配置文件各不相同,不具通用性。下...
折腾 2 分钟阅读

怎么在豆瓣主页显示个人博客的更新

我的豆瓣主页上博客的文章 以前看过一些豆友的豆瓣主页有博客文章,今天去研究了一下,方法不难,记录如下。 上图便是我的豆瓣主页上的展示效果。 一、将自己的博客添加到豆瓣九点 登录豆瓣九点,进入「我的订阅」,点击「添加订阅」将自己的博客加入到订阅列表。 二、认领自己的博客 经过上面一步,豆瓣九点便灰为你的博客建立一个页面,如同每一本书、每一部电影的页面一样,所有的豆瓣用户都可以在这个...
怎么在豆瓣主页显示个人博客的更新