Java RuleBasedBreakIterator类代码示例

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› Java›Java编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文整理汇总了Java中com.ibm.icu.text.RuleBasedBreakIterator类的典型用法代码示例。如果您正苦于以下问题：Java RuleBasedBreakIterator类的具体用法？Java RuleBasedBreakIterator怎么用？Java RuleBasedBreakIterator使用的例子？那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。

RuleBasedBreakIterator类属于com.ibm.icu.text包，在下文中一共展示了RuleBasedBreakIterator类的20个代码示例，这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞，您的评价将有助于我们的系统推荐出更棒的Java代码示例。

示例1: EmojiTokenizerFactory

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
public EmojiTokenizerFactory(IndexSettings indexSettings, Environment environment, String name, Settings settings) {
    super(indexSettings, name, settings);

    config = new DefaultICUTokenizerConfig(true, true) {
        @Override
        public BreakIterator getBreakIterator(int script) {
            // Load the ICU default rules
            RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
                    BreakIterator.getWordInstance(Locale.getDefault());
            String defaultRules = rbbi.toString();

            // Customize the rules to add EmojiNRK as first class word
            defaultRules = defaultRules.replace(
                "!!forward;",
                "!!forward;\n$EmojiNRK {200};"
            );

            defaultRules = defaultRules.replace(
                "| $ZWJ)*;",
                "| $ZWJ)* {200};"
            );

            return new RuleBasedBreakIterator(defaultRules);
        }
    };
}

开发者ID:jolicode，项目名称:emoji-search，代码行数:27，代码来源:EmojiTokenizerFactory.java

示例2: calcStatus

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private int calcStatus(int current, int next) {
    if (current == BreakIterator.DONE || next == BreakIterator.DONE) {
        return RuleBasedBreakIterator.WORD_NONE;
    }
    int begin = start + current;
    int end = start + next;
    int codepoint;
    for (int i = begin; i < end; i += UTF16.getCharCount(codepoint)) {
        codepoint = UTF16.charAt(text, 0, end, begin);
        if (UCharacter.isDigit(codepoint)) {
            return RuleBasedBreakIterator.WORD_NUMBER;
        } else if (UCharacter.isLetter(codepoint)) {
            return RuleBasedBreakIterator.WORD_LETTER;
        }
    }
    return RuleBasedBreakIterator.WORD_NONE;
}

开发者ID:jprante，项目名称:elasticsearch-icu，代码行数:18，代码来源:BreakIteratorWrapper.java

示例3: calcStatus

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private int calcStatus(int current, int next) {
  if (current == BreakIterator.DONE || next == BreakIterator.DONE)
    return RuleBasedBreakIterator.WORD_NONE;

  int begin = start + current;
  int end = start + next;

  int codepoint;
  for (int i = begin; i < end; i += UTF16.getCharCount(codepoint)) {
    codepoint = UTF16.charAt(text, 0, end, begin);

    if (UCharacter.isDigit(codepoint))
      return RuleBasedBreakIterator.WORD_NUMBER;
    else if (UCharacter.isLetter(codepoint)) {
      // TODO: try to separately specify ideographic, kana? 
      // [currently all bundled as letter for this case]
      return RuleBasedBreakIterator.WORD_LETTER;
    }
  }

  return RuleBasedBreakIterator.WORD_NONE;
}

开发者ID:europeana，项目名称:search，代码行数:23，代码来源:BreakIteratorWrapper.java

示例4: maybeLoad

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private LineBreakIterator maybeLoad(Reporter reporter) {
    LineBreakIterator iterator = this.iterator;
    if (iterator != null)
        return iterator;
    else {
        BreakIterator bi = null;
        InputStream is = null;
        try {
            URL rulesLocator = getRulesLocator(name, RULES_BINARY_EXT);
            if (rulesLocator != null) {
                is = rulesLocator.openStream();
                bi = RuleBasedBreakIterator.getInstanceFromCompiledRules(is);
                reporter.logInfo(reporter.message("*KEY*", "Loaded rules based break iterator from ''{0}''.", rulesLocator.toString()));
            } else
                bi = BreakIterator.getCharacterInstance();
        } catch (IOException e) {
        } finally {
            IOUtil.closeSafely(is);
        }
        if (bi != null) {
            return this.iterator = new LineBreakIterator(bi);
        } else
            return null;
    }
}

开发者ID:skynav，项目名称:ttt，代码行数:26，代码来源:LineBreaker.java

示例5: parseRules

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private BreakIterator parseRules(String filename, Environment env) throws IOException {

        final Path path = env.configFile().resolve(filename);
        String rules = Files.readAllLines(path)
            .stream()
            .filter((v) -> v.startsWith("#") == false)
            .collect(Collectors.joining("\n"));

        return new RuleBasedBreakIterator(rules.toString());
    }

开发者ID:justor，项目名称:elasticsearch_my，代码行数:11，代码来源:IcuTokenizerFactory.java

示例6: getType

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
@Override
public String getType(int script, int ruleStatus) {
    switch (ruleStatus) {
        case RuleBasedBreakIterator.WORD_IDEO:
            return WORD_IDEO;
        case RuleBasedBreakIterator.WORD_KANA:
            return script == UScript.HIRAGANA ? WORD_HIRAGANA : WORD_KATAKANA;
        case RuleBasedBreakIterator.WORD_LETTER:
            return script == UScript.HANGUL ? WORD_HANGUL : WORD_LETTER;
        case RuleBasedBreakIterator.WORD_NUMBER:
            return WORD_NUMBER;
        default: /* some other custom code */
            return "<OTHER>";
    }
}

开发者ID:jprante，项目名称:elasticsearch-icu，代码行数:16，代码来源:DefaultIcuTokenizerConfig.java

示例7: readBreakIterator

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private static RuleBasedBreakIterator readBreakIterator(String filename) {
    InputStream is = DefaultIcuTokenizerConfig.class.getResourceAsStream("/org/apache/lucene/analysis/icu/segmentation/" + filename);
    try {
        RuleBasedBreakIterator bi = RuleBasedBreakIterator.getInstanceFromCompiledRules(is);
        is.close();
        return bi;
    } catch (IOException e) {
        throw new RuntimeException(e);
    }
}

开发者ID:jprante，项目名称:elasticsearch-icu，代码行数:11，代码来源:DefaultIcuTokenizerConfig.java

示例8: wrap

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
/**
 * If its a RuleBasedBreakIterator, the rule status can be used for token type. If its
 * any other BreakIterator, the rulestatus method is not available, so treat
 * it like a generic BreakIterator.
 */
static BreakIteratorWrapper wrap(BreakIterator breakIterator) {
    if (breakIterator instanceof RuleBasedBreakIterator) {
        return new RBBIWrapper((RuleBasedBreakIterator) breakIterator);
    } else {
        return new BIWrapper(breakIterator);
    }
}

开发者ID:jprante，项目名称:elasticsearch-icu，代码行数:13，代码来源:BreakIteratorWrapper.java

示例9: wrap

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
/**
 * If its a RuleBasedBreakIterator, the rule status can be used for token type. If its
 * any other BreakIterator, the rulestatus method is not available, so treat
 * it like a generic BreakIterator.
 */
static BreakIteratorWrapper wrap(BreakIterator breakIterator) {
  if (breakIterator instanceof RuleBasedBreakIterator)
    return new RBBIWrapper((RuleBasedBreakIterator) breakIterator);
  else
    return new BIWrapper(breakIterator);
}

开发者ID:europeana，项目名称:search，代码行数:12，代码来源:BreakIteratorWrapper.java

示例10: parseRules

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private BreakIterator parseRules(String filename, ResourceLoader loader) throws IOException {
  StringBuilder rules = new StringBuilder();
  InputStream rulesStream = loader.openResource(filename);
  BufferedReader reader = new BufferedReader
      (IOUtils.getDecodingReader(rulesStream, StandardCharsets.UTF_8));
  String line = null;
  while ((line = reader.readLine()) != null) {
    if ( ! line.startsWith("#"))
      rules.append(line);
    rules.append('\n');
  }
  reader.close();
  return new RuleBasedBreakIterator(rules.toString());
}

开发者ID:europeana，项目名称:search，代码行数:15，代码来源:ICUTokenizerFactory.java

示例11: getType

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
@Override
public String getType(int script, int ruleStatus) {
  switch (ruleStatus) {
    case RuleBasedBreakIterator.WORD_IDEO:
      return WORD_IDEO;
    case RuleBasedBreakIterator.WORD_KANA:
      return script == UScript.HIRAGANA ? WORD_HIRAGANA : WORD_KATAKANA;
    case RuleBasedBreakIterator.WORD_LETTER:
      return script == UScript.HANGUL ? WORD_HANGUL : WORD_LETTER;
    case RuleBasedBreakIterator.WORD_NUMBER:
      return WORD_NUMBER;
    default: /* some other custom code */
      return "<OTHER>";
  }
}

开发者ID:europeana，项目名称:search，代码行数:16，代码来源:DefaultICUTokenizerConfig.java

示例12: readBreakIterator

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private static RuleBasedBreakIterator readBreakIterator(String filename) {
  InputStream is = 
    DefaultICUTokenizerConfig.class.getResourceAsStream(filename);
  try {
    RuleBasedBreakIterator bi = 
      RuleBasedBreakIterator.getInstanceFromCompiledRules(is);
    is.close();
    return bi;
  } catch (IOException e) {
    throw new RuntimeException(e);
  }
}

开发者ID:europeana，项目名称:search，代码行数:13，代码来源:DefaultICUTokenizerConfig.java

示例13: compile

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
static void compile(File srcDir, File destDir) throws Exception {
  File files[] = srcDir.listFiles(new FilenameFilter() {
    public boolean accept(File dir, String name) {
      return name.endsWith("rbbi");
    }});
  if (files == null) throw new IOException("Path does not exist: " + srcDir);
  for (int i = 0; i < files.length; i++) {
    File file = files[i];
    File outputFile = new File(destDir, 
        file.getName().replaceAll("rbbi$", "brk"));
    String rules = getRules(file);
    System.err.print("Compiling " + file.getName() + " to "
        + outputFile.getName() + ": ");
    /*
     * if there is a syntax error, compileRules() may succeed. the way to
     * check is to try to instantiate from the string. additionally if the
     * rules are invalid, you can get a useful syntax error.
     */
    try {
      new RuleBasedBreakIterator(rules);
    } catch (IllegalArgumentException e) {
      /*
       * do this intentionally, so you don't get a massive stack trace
       * instead, get a useful syntax error!
       */
      System.err.println(e.getMessage());
      System.exit(1);
    }
    FileOutputStream os = new FileOutputStream(outputFile);
    RuleBasedBreakIterator.compileRules(rules, os);
    os.close();
    System.err.println(outputFile.length() + " bytes.");
  }
}

开发者ID:europeana，项目名称:search，代码行数:35，代码来源:RBBIRuleCompiler.java

示例14: main

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
public static void main(String[] args) {
    if (args.length == 2) {
        String inputFilePath = args[0];
        String outputFilePath = args[1];
        InputStream is = null;
        OutputStream os = null;
        BufferedReader r = null;
        try {
            is = new FileInputStream(inputFilePath);
            os = new FileOutputStream(outputFilePath);
            r = new BufferedReader(new InputStreamReader(is, defaultInputEncoding));
            StringBuffer rules = new StringBuffer();
            String line;
            while ((line = r.readLine()) != null) {
                rules.append(line);
                rules.append('\n');
            }
            RuleBasedBreakIterator.compileRules(rules.toString(), os);
        } catch (IOException e) {
        } finally {
            IOUtil.closeSafely(r);
            IOUtil.closeSafely(os);
            IOUtil.closeSafely(is);
        }
    } else {
        System.err.println("Usage: java -cp ... com.skynav.ttpe.text.LineBreaker [INPUT-FILE-PATH] [OUTPUT-FILE-PATH]");
    }
}

开发者ID:skynav，项目名称:ttt，代码行数:29，代码来源:LineBreaker.java

示例15: clone

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
/**
 * Clone method.  Creates another LaoBreakIterator with the same behavior 
 * and current state as this one.
 * @return The clone.
 */
@Override
public LaoBreakIterator clone() {
  LaoBreakIterator other = (LaoBreakIterator) super.clone();
  other.rules = (RuleBasedBreakIterator) rules.clone();
  other.verify = (RuleBasedBreakIterator) verify.clone();
  if (text != null)
    other.text = text.clone();
  if (working != null)
    other.working = working.clone();
  if (verifyText != null)
    other.verifyText = verifyText.clone();
  return other;
}

开发者ID:pkarmstr，项目名称:NYBC，代码行数:19，代码来源:LaoBreakIterator.java

示例16: wrap

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
/**
 * If its a DictionaryBasedBreakIterator, it doesn't return rulestatus, so
 * treat it like a generic BreakIterator If its any other
 * RuleBasedBreakIterator, the rule status can be used for token type. If its
 * any other BreakIterator, the rulestatus method is not available, so treat
 * it like a generic BreakIterator.
 */
static BreakIteratorWrapper wrap(BreakIterator breakIterator) {
  if (breakIterator instanceof RuleBasedBreakIterator
      && !(breakIterator instanceof DictionaryBasedBreakIterator))
    return new RBBIWrapper((RuleBasedBreakIterator) breakIterator);
  else
    return new BIWrapper(breakIterator);
}

开发者ID:pkarmstr，项目名称:NYBC，代码行数:15，代码来源:BreakIteratorWrapper.java

示例17: parseRules

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private BreakIterator parseRules(String filename, ResourceLoader loader) throws IOException {
  StringBuilder rules = new StringBuilder();
  InputStream rulesStream = loader.openResource(filename);
  BufferedReader reader = new BufferedReader
      (IOUtils.getDecodingReader(rulesStream, IOUtils.CHARSET_UTF_8));
  String line = null;
  while ((line = reader.readLine()) != null) {
    if ( ! line.startsWith("#"))
      rules.append(line);
    rules.append('\n');
  }
  reader.close();
  return new RuleBasedBreakIterator(rules.toString());
}

开发者ID:pkarmstr，项目名称:NYBC，代码行数:15，代码来源:ICUTokenizerFactory.java

示例18: setUp

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
@Override
public void setUp() throws Exception {
  super.setUp();
  InputStream is = getClass().getResourceAsStream("Lao.brk");
  wordIterator = new LaoBreakIterator(RuleBasedBreakIterator.getInstanceFromCompiledRules(is));
  is.close();
}

开发者ID:pkarmstr，项目名称:NYBC，代码行数:8，代码来源:TestLaoBreakIterator.java

示例19: readBreakIterator

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
private static RuleBasedBreakIterator readBreakIterator(ClassLoader classLoader, String resourceName) {
    try (InputStream inputStream = classLoader.getResource(resourceName).openStream()) {
        return RuleBasedBreakIterator.getInstanceFromCompiledRules(inputStream);
    } catch (IOException e) {
        throw new UncheckedIOException("unable to load resource " + resourceName + " " + e.getMessage(), e);
    }
}

开发者ID:jprante，项目名称:elasticsearch-plugin-bundle，代码行数:8，代码来源:DefaultIcuTokenizerConfig.java

示例20: compile

import com.ibm.icu.text.RuleBasedBreakIterator; //导入依赖的package包/类
public void compile(Path inputPath, Path outputPath) throws IOException {
    String rules = getRules(inputPath);
    try (OutputStream os = Files.newOutputStream(outputPath)) {
        new RuleBasedBreakIterator(rules);
        RuleBasedBreakIterator.compileRules(rules, os);
    } catch (IllegalArgumentException e) {
        logger.error(e.getMessage(), e);
    }
}

开发者ID:jprante，项目名称:elasticsearch-plugin-bundle，代码行数:10，代码来源:RBBIRuleCompiler.java

注：本文中的com.ibm.icu.text.RuleBasedBreakIterator类示例整理自Github/MSDocs等源码及文档管理平台，相关代码片段筛选自各路编程大神贡献的开源项目，源码版权归原作者所有，传播和使用请参考对应项目的License；未经允许，请勿转载。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Java ContainerLauncher类代码示例发布时间：2022-05-22

Java SetQuotaRequestProto类代码示例发布时间：2022-05-22

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18149|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9635|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8161|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8538|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8440|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9360|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8410|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7848|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8395|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7387|2022-11-06

客服电话

电子邮件

Java RuleBasedBreakIterator类代码示例

示例1: EmojiTokenizerFactory

示例2: calcStatus

示例3: calcStatus

示例4: maybeLoad

示例5: parseRules

示例6: getType

示例7: readBreakIterator

示例8: wrap

示例9: wrap

示例10: parseRules

示例11: getType

示例12: readBreakIterator

示例13: compile

示例14: main

示例15: clone

示例16: wrap

示例17: parseRules

示例18: setUp

示例19: readBreakIterator

示例20: compile

请发表评论

全部评论

上一篇：

下一篇：

PacktPublishing/Python-Machine-Learning-

MATLAB——文件读写（1）

armancodv/building-energy-model-matlab:

鲁东大学一米网:Win7系统USB驱动器RAM的操

FGRibreau/import-tweets-to-mastodon: How

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053