从零打造属于自己的标签词库
第一步获取词数据 :
输入法是最接近用户输入的工具,积累了海量的词数据
http://wubi.sogou.com/dict/list.php?c=98
https://pinyin.sogou.com/dict/detail/index/36423
该工具可以将细胞词库转为txt文件,非常方便
http://tools.bugscaner.com/sceltotxt/
其他输入法词库:
https://shurufa.baidu.com/dict
https://pinyin.sogou.com/dict/cate/index/167
初步计划 爬取搜狗拼音的所有计算机相关词库 ,转为txt进行存储
github 上有先现成的搜狗词库爬虫