折腾 3 分钟阅读

Python爬虫:抓取知乎所有话题

接上篇《Python 爬虫:模拟登录知乎》。 分析页面请求 LZ准备从知乎的话题页抓取所有的话题及其结构,在页面上获取话题共有两类ajax request,分别是「显示子话题」和「加载更多」,两者都是一次输出10个话题。request url如下: https://www.zhihu.com/topic/19776749/organize/entire?child=&parent=19552706 其中child和parent是话题的ID,「显示子话题」只需要parent参数,「加载更多」则两个参数...
折腾 2 分钟阅读

解决BeautifulSoup中同时返回Tag和NavigalbeString对象的问题

在BeautifulSoup中,用contents或children遍历子节点的时候,如果节点下存在字符串,则会同时获取Tag和NavigalbeString对象。这是一个非常坑爹的特性,一方面通常获取子节点主要是得到Tag,另一方面,bs已经提供了strings及stripped_strings单独获取节点下的字符串,这里就是多此一举。 下面以contents为例,来看看这个问题的具体情况并给出两种解决方案。 一个例子 假设有下面这个xml: <tab> <t...
折腾 3 分钟阅读

Python爬虫:模拟登录知乎

接上一篇《Python 爬虫:抓取知乎某一话题下的全部问题》,需要说明的是我换了开发环境及一些工具库,现在用的是 环境:Python 3.5HTTP请求:requestXML处理:BeautifulSoup + lxml 能够抓取一个话题下的问题后,我在想要如何抓取知乎全站数据呢?传统的方法,随便从某一个页面(通常是首页)开始抓取,然后提取页面中的URL,再根据提取到的URL去抓下一个页面。但对于新手,感觉一开始就这样处理,难度挺大...
Python爬虫:模拟登录知乎
折腾 1 分钟阅读

显示Python程序运行进度

前两天做query分析时候,需要从20w随机query中筛选出包括股票实体的query,股票实体大概5000多个。于是写了个循环处理,代码如下: # 读取query with open('query_20w.txt', 'r', encoding='utf-8') as fq: query = fq.readlines() # 读取股票实体 with open('entity.txt', 'r', encoding='utf-8') as fe: entity = fe.readlines() # 用两层循环做query筛选 for q in query: q = q.strip() ...
折腾 1 分钟阅读

hexo使用小结

去年年底的时间,决定改用hexo在github上建设静态博客。12月24日将ghost觉得还可以的文章都备份下来,随后的几天开始折腾hexo,大概26号基本搞定。 碰到了两个坑:使用git同步到github问题报错,后来发现可以改用ssh的方式,终于搞定。随后又发现每次同步CNAME文件都会被删除,后来把CNAME文件放到source文件夹中得以解决。 我现在写博客的流程基本上是:在Stackedit上写文章,实时同步到Google Drive,完...
折腾 2 分钟阅读

Python爬虫:抓取知乎某一话题下的全部问题

因为自己在做搜索产品,希望能对搜索技术有些了解,偶尔也会做些数据及文本方面的分析,所以今年给自己设了一个学习Python的任务,方向就是爬虫及数据分析。 在大学学过一点C,虽然从来没有写出过一个完整的程序,但对编程的基本概念(比如变量、函数、类型、对象)都有了解。去年就想着学Python,基本语法都看过,只是每当要实现一个完整功能的时候,都觉得挺难而放弃。所以这次不准备系统看语法了,直接...
折腾 1 分钟阅读

windows 上修改 ipython notebook 的工作目录

在 Windows 上,ipython notebook 默认的工作目录是 C 盘的用户目录,实际使用中,可能希望切换到其他目录,比如 D 盘。方法其实也非常简单,只需要在命令行下切换到工作目录,再执行ipython notebook启动 ipython notebook 即可。如下: C:\Users\Administrator>d: D:\>cd @me\coding D:\@me\coding>ipython notebook [I 20:05:48.002 NotebookApp] Serving notebooks from local directory: D...
理财 1 分钟阅读

最高杠杆与实际杠杆

外汇的波动其实很小,EUR/USD日均波动大概1%,比A股小的多。这个角度看,外汇的风险就比A股小。但人们又普遍认为外汇是一项高风险的投资,主要是因为外汇经纪商通常都支持高杠杆,高杠杆则意味着高风险和高收益。 杠杆的计算很简单: 杠杆 = 仓位的名义价值/账户余额 简单来说就是能用1块钱买几块钱的东西。假设你的账户余额为1000刀,交易了1手EUR/USD,目前EUR/USD的汇率大概是1.11,那么你的杠杆就是1...
理财 2 分钟阅读

外汇交易订单类型介绍

大的分类也无外乎就是买多和卖空两类,但买和卖又各有三种形式,分别为市价订单、limit订单、stop订单,所以可以细分为六类订单。 buy:市价买多。即按当前市价买入,实时成交。 sell:市价卖空。即按当前市价卖出,实时成交。 buy limit:限价买多。在当前价下方挂买单,当价格下跌到挂单位置才成交。 sell limit:限价卖空。在当前价上方挂卖单,当价格上涨到挂单位置才成交。 buy stop:突破买多。在当...
外汇交易订单类型介绍
理财 1 分钟阅读

外汇交易的特点

我在13年下半年至14年年初的时候玩过一段时间的外汇,中间停了很久,前天又开始了,决定接下来写点外汇相关的文章。 投资品种方面,除了外汇,我只玩A股,所以下面主要拿A股来对比。外汇的特点包括: 1. 24小时全天候交易 股票市场会有统一的交易所,比如A股的上证交易所及深证交易所,股票的买卖交易都是通过交易所成交的。外汇市场则是去中心化的,世界各地的银行或其他许可金融机构都能进行外汇结算。因...