400-685-0732

WJMonitor舆情之声

企业大数据智能舆情监测管理解决方案

全网监测海量数据按需发布监测预警

实时把握舆情动态精准追溯信息源头

获取验证码
企业采购 个人使用
当前位置: 首页 > SEO博客 > 转载一篇文章,大家可以看下

转载一篇文章,大家可以看下

时间:2012-03-21 20:06:17
TF-IDF(term frequency–inverse document frequency)是一种统计方法,用于评估一个词对N篇文章或一个语料库中其中一篇文章的重要性。

一个词在一篇文章中出现的次数并不能表明该词的重要性,例如“我们”,“的”这种常见词,我们需要TF-IDF统计方法。

词的重要度随着它在一篇文章中出现的次数成正比增加,但同时会随着它在N篇文章(文章集合)中出现的频率成反比下降。

在一篇给定的文章中,词频(term frequency, TF)指的是该文章中某个词出现的次数除以该文章的总词数。

逆向文档频率(inverse document frequency, IDF)是一个词普遍重要性的度量,某一特定词的IDF值,用总文件数除以包含 该词的文章数量,再将得到的商取对数(log)。计算公式:IDF = log(D/Dt),D为文章总数,Dt为该词出现的文章数量。

TF-IDF值 = TF值 * IDF值

假如测试语料库**有1000篇文章,其中一篇文章共分得100个词,其中“互联网”一词出现了5次,那么“互联网”一词在该文章中的TF值(词频)就是 5/100 = 0.05。

如果“互联网”一词共出现在200篇文章中,那么该词的IDF值 log(1000/200) = 2.12,该词的TF-IDF值 0.05 * 2.12 = 0.106

再举一个常用词例子,假如“我们”在该篇文章中出现了30次,该文章共分得100个词,那么该词的词频为 30/100 = 0.3。如果“我们”一共出现在了900篇文章中,那么该词的IDF值 log(1000/900) = 0.1,该词的TF-IDF值 0.3 * 0.1 = 0.03。

由于“互联网”一词的TF-IDF值比“我们”要大,所以我们认为““互联网”一词的重要度要高于“我们”。
分享按钮