Show HN: TokenDagger – 一款比 OpenAI 的 Tiktoken 更快的分词器

Show HN: TokenDagger – 一款比 OpenAI 的 Tiktoken 更快的分词器

Hacker News 摘要

原标题:Show HN: TokenDagger – A tokenizer faster than OpenAI's Tiktoken

TokenDagger 是 OpenAI 的 TikToken 的高性能实现,专为大规模文本处理设计,具有 2 倍的吞吐量和 4 倍速度的代码样本分词能力。该项目的基准是在 AMD EPYC 4584PX 16 核 32 线程,4.2 GHz 的系统上进行的。

主要特点包括:

快速正则解析:优化过的 PCRE2 正则引擎,能够高效进行标记模式匹配。

即插即用替代品:与 OpenAI 的 TikToken 分词器完全兼容。

简化的 BPE:简化算法,减少大特殊标记词汇的性能影响。

安装步骤:

• 推荐通过 PyPI 安装,或者进行开发安装。建议在安装前确保相关依赖项,如 libpcre2-dev 和 python3-dev 已经设置完成,并可以选配安装 tiktoken 以运行测试。

测试运行时可以执行一系列命令以验证 TokenDagger 的性能和兼容性。测试结果显示:TokenDagger 在代码分词方面的速度是 4.02 倍于 TikToken。

依赖项包括 PCRE2:Perl 兼容正则表达式库。

该项目的 GitHub 仓库提供了详细的文档和资源供开发者参考。


原文:https://github.com/M4THYOU/TokenDagger

评论:https://news.ycombinator.com/item?id=44422480

Report Page