Get text of childrens in a div with BeautifulSoup
Find children of nodes useing BeautifulSoup
How to save an pic with request
Flask Interface response methods
编码问题
'ascii' codec can't encode characters in position 1-2: ordinal not in range(128)
python 的编码比较的麻烦,所以使用 codecs 模块来进行编码 打开文件的时候用
codecs.open('filename','methods','')
或者直接指定编码
import sys
reload(sys)
sys.setdefaultencoding('utf8')
因为爬取的是百度百科的简介,所以输入一个可以查到的词语 --> 爬取百科这个页面的简介 --> 过滤特殊不需要的字符--> 保存为本地文件。
requests 爬取数据,然后用 **Beautiful ** 来获取到想要的节点的内容
读取 text = open(path.join('filename.txt')).read()
获取到文字 或者 with open('filename.txt') as f: ....
读取文件
有 全模式/精确模式/新词识别/搜索引擎模式
代码中使用的是 精确模式 精确模式和全模式就是一个 cut_all=False || True 的区别,试了下发现精确模式要更好一些。
当然还有类似 基于 TF-IDF 算法的关键词抽取 这种模式的
全部显示
一个可以把图片转成文字的东东,gitHub 地址
首先将爬到的数据生成词云图片,--> 用图片当做 mask 背景图片作为生成词云的样子,然后按照图片的形状生成图片 --> 按照图片的颜色生成词云图片 -->完工~
词云制作的代码片段在gist上面
其中 WordCloud 的参数里面可以指定 background=""(default is black) min_font_size && max_font_size 等等
前端使用的是 Vue 的模式,本来可以后端保存到服务器,然后返回个链接的,但是.... 木有服务器。所以直接保存到本地的一个地址。然后前端从这个地址获取图片~

