WordFrequencyData

WordFrequencyData[word]

给出 word 在常见的已出版的英文文本中出现的频次.

WordFrequencyData[{word1,word2,}]

给出 wordi 出现频次的关联.

WordFrequencyData[word,"TimeSeries"]

给出 word 在常见的已出版的英文文本中出现频次的时间序列.

WordFrequencyData[word,"TimeSeries",datespec]

给出由 datespec 指定的日期组成的时间序列.

WordFrequencyData[word,"prop"]

给出单词出现频次的属性 prop.

更多信息和选项

  • WordFrequencyData[word1|word2|] 给出所有单词 wordi 出现的总频次.
  • WordFrequencyData[word,"Total",datespec] 给出单词 word 在由 datespec 指定的日期出现的总频次.
  • 缺省情况下,WordFrequencyData 使用 Google Books English n-元组出版数据集.
  • 可能的选项有:
  • IgnoreCase False是否忽略 word 的大小写
    Language "English"使用何种语言的文献资料
  • WordFrequencyData[word,"prop"] 中,可能的属性包括:
  • "Total"给出一个日期范围内的总频次
    "TimeSeries"给出频次的时间序列
    "CaseVariants"给出不同大小写情况下的变体
    "PartsOfSpeechVariants"给出词性的不同变体
    {prop1,prop2,}给出不同属性的组合
  • 可能的日期规范为:
  • All使用指定的文献资料的所有可用日期
    DateObject[]使用 DateObject
    year采用指定的 year
    {yearmin,yearmax}使用年份范围 yearminyearmax
    {{d1,d2,}}使用明确指定的日期 {d1,d2,}

范例

打开所有单元关闭所有单元

基本范例  (4)

获取 "dog" 在常见英文中出现的频次:

获取几个单词的频次:

计算单词 "war""peace" 在出版物中出现的频次的比:

绘制单词 "economy" 出现的频次的历史时间序列:

范围  (4)

获取 "atlas" 的频次:

一次给出多个单词出现的频次:

WordFrequencyData 接受具有指定"GrammaticalUnit"TextElement 输入:

绘制1900年以来单词 "computer" 出现的频次的历史时间序列:

推广和延伸  (1)

Alternatives 被用作输入时,结果为所给选择的总频次:

Alternatives 可与其他属性组合在一起使用,如 "TimeSeries"

选项  (6)

IgnoreCase  (1)

不考虑大写或小写变体,返回单词的频次. 缺省值为 False

这将使所得结果大于缺省时的结果:

Language  (5)

求常见西班牙语单词在西班牙语文献资料中出现的频次:

西班牙语也可能出现在其他语言中,但频次要低得多:

法语中的常见单词出现的频次很高:

单词 "peace" 在西班牙语中流行的程度:

俄语单词 "Sputnik"

获取单词 "Haus" 在德语中自1900年到现在的时间序列,并绘制结果:

属性和关系  (14)

"CaseVariants"  (3)

一个单词可以有很多小写和大写变体:

IgnoreCase->True 的情况下获取单词的频次相当于获取上一个输入的 Total

获取 "DOS" 最常见的大小写变体:

当对多个单词进行计算时,关联中将包含每个单词的所有变体:

"PartOfSpeechVariants"  (4)

计算一个单词在指定年份包含所有词性变体的频次:

显示单词 "nuke" 在1944年时的不同用途:

对于有些单词可能会返回许多词性变体:

将该参数与 "CaseVariants" 一起使用:

"CaseVariants""TimeSeries" 一起使用:

"TimeSeries"  (2)

获取单词 "war" 在整个二十世纪出现的频次:

可以用 DateListPlot 直接将结果画出来:

比较 "peace""war" 在不同时代的使用情况:

比较它们在另一种语言中的使用情况:

绘制两种语言中 "war""peace" 的频次比:

"Total"  (5)

"Total" 是缺省的属性:

简单设置一个日期范围:

允许在日期规范中使用 DateObject 对象:

可对指定的年份列表进行 "Total" 计算:

Infinity 可被用来指定无穷大的范围:

可能存在的问题  (1)

对于未包含在语料库中的词将返回 Missing["NotAvailable"]

巧妙范例  (11)

不同语言中单词 "dog" 及其翻译的流行程度:

不同时代中 "gold" vs "oil" 的变化情况:

不同时代中电话和电视术语出现的频次:

将同义词合在一起:

常见疾病:

把星期几按流行度排序:

有些单词旧时的拼法已不见了:

单词 "democracy" 在二十世纪用的更频繁了:

"Apple",A 大写的写法在1980年之后变得很流行:

词性变体的相对频次可能随时代不同而变化. "Tackle" 作为动词和名词的区别是一个很好的例子:

不规则动词的规则化可以解释词性的变化和有些单词的拼法,比如 "burnt" vs "burned"

西班牙语中 "ustedes" vs "vosotros" 的演化:

Wolfram Research (2016),WordFrequencyData,Wolfram 语言函数,https://reference.wolfram.com/language/ref/WordFrequencyData.html.

文本

Wolfram Research (2016),WordFrequencyData,Wolfram 语言函数,https://reference.wolfram.com/language/ref/WordFrequencyData.html.

CMS

Wolfram 语言. 2016. "WordFrequencyData." Wolfram 语言与系统参考资料中心. Wolfram Research. https://reference.wolfram.com/language/ref/WordFrequencyData.html.

APA

Wolfram 语言. (2016). WordFrequencyData. Wolfram 语言与系统参考资料中心. 追溯自 https://reference.wolfram.com/language/ref/WordFrequencyData.html 年

BibTeX

@misc{reference.wolfram_2024_wordfrequencydata, author="Wolfram Research", title="{WordFrequencyData}", year="2016", howpublished="\url{https://reference.wolfram.com/language/ref/WordFrequencyData.html}", note=[Accessed: 25-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_wordfrequencydata, organization={Wolfram Research}, title={WordFrequencyData}, year={2016}, url={https://reference.wolfram.com/language/ref/WordFrequencyData.html}, note=[Accessed: 25-November-2024 ]}