A collection of 2 posts
上一篇中详述了歌词的抓取部分,大约抓取到了 3 万 7 千多篇歌词,未经过任何清洗。在这一篇中,需要对歌词做一些简单的清洗和分析工作。
本文旨在对特定的语料库生成各词的逆文档频率。然后根据TF-IDF算法进行关键词提取。