你刚刚发现了 text2vec!

text2vec 这个 R 包提供了高性能和简洁的 API 来进行文本分析、自然语言处理。

为了实现下面的目标,我们开发了 text2vec

查看 API 章节来了解更多内容。

性能

htop

htop

作者十分关注这个包的性能!

因为这个包核心代码是使用 C++ 来写的,它的性能很好,同时内存效率也很高·。一些函数(比如 GloVe)使用了出色的 RcppParallel 包来实现并行计算。在 OS X, Linux, Windows, 和 Solaris (x86) 上,不需要设置就可以并行地计算词向量。

其他一些并行任务比如向量化(vectorization),可以使用 foreach 等包来实现并行。他们可以实现近似线性的多核扩展。

最后,用户不需要把所有数据读入内存中,可以使用流(streaming)API 来处理数据。