Java NGramTokenizer类代码示例

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› Java›Java编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文整理汇总了Java中weka.core.tokenizers.NGramTokenizer类的典型用法代码示例。如果您正苦于以下问题：Java NGramTokenizer类的具体用法？Java NGramTokenizer怎么用？Java NGramTokenizer使用的例子？那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。

NGramTokenizer类属于weka.core.tokenizers包，在下文中一共展示了NGramTokenizer类的6个代码示例，这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞，您的评价将有助于我们的系统推荐出更棒的Java代码示例。

示例1: parseTokenizer

import weka.core.tokenizers.NGramTokenizer; //导入依赖的package包/类
private StringToWordVector parseTokenizer(StringToWordVector filter) {
	switch (Constants.CONFIG.getTokenizer()) {
	case ALPHABETIC:
		// Avoid. Does not support diacritics (ã, á, é, etc.)
		filter.setTokenizer(new AlphabeticTokenizer());
		break;
	case WORD:
		NGramTokenizer tokenizer = new NGramTokenizer();
		tokenizer.setNGramMaxSize(Constants.CONFIG.getNGrams());
		filter.setTokenizer(tokenizer);
		break;
	case OPENNLP:
		// TODO use WordTokenizer with a specific delimiter set via options
		// and printed by OpenNLP.
		break;
	case COGROO:
		// TODO use WordTokenizer with a specific delimiter set via options
		// and printed by CoGrOO.
		break;
	default:
		throw new IllegalArgumentException(Constants.CONFIG.getTokenizer() + " is not implemented.");
	}
	return filter;
}

开发者ID:michelole，项目名称:ICDClassifier，代码行数:25，代码来源:CipeClassifier.java

示例2: getStringToWordVectorFilter

import weka.core.tokenizers.NGramTokenizer; //导入依赖的package包/类
private StringToWordVector getStringToWordVectorFilter(Instances instances) throws Exception {
  StringToWordVector stringToWordVector = new StringToWordVector();
  stringToWordVector.setAttributeIndices(indicesToRangeList(new int[]{
    instances.attribute(SURFACE_TEXT_AND_POS_TAG_OF_TWO_PRECEDING_AND_FOLLOWING_TOKENS_AROUND_THE_DESC_CANDIDATE).index(),
    instances.attribute(SURFACE_TEXT_AND_POS_TAG_OF_THREE_PRECEDING_AND_FOLLOWING_TOKENS_AROUND_THE_PAIRED_MATH_EXPR).index(),
    instances.attribute(SURFACE_TEXT_OF_THE_FIRST_VERB_THAT_APPEARS_BETWEEN_THE_DESC_CANDIDATE_AND_THE_TARGET_MATH_EXPR).index(),
    instances.attribute(SURFACE_TEXT_AND_POS_TAG_OF_DEPENDENCY_WITH_LENGTH_3_FROM_IDENTIFIER).index(),
    instances.attribute(SURFACE_TEXT_AND_POS_TAG_OF_DEPENDENCY_WITH_LENGTH_3_FROM_DEFINIEN).index()}));
  stringToWordVector.setWordsToKeep(1000);
  NGramTokenizer nGramTokenizer = new NGramTokenizer();
  nGramTokenizer.setNGramMaxSize(3);
  nGramTokenizer.setNGramMinSize(1);
  nGramTokenizer.setDelimiters(nGramTokenizer.getDelimiters().replaceAll(":", ""));
  stringToWordVector.setTokenizer(nGramTokenizer);
  stringToWordVector.setInputFormat(instances);
  return stringToWordVector;
}

开发者ID:ag-gipp，项目名称:mathosphere，代码行数:18，代码来源:WekaLearner.java

示例3: createFilter

import weka.core.tokenizers.NGramTokenizer; //导入依赖的package包/类
/**
 * Creates a {@link StringToWordVector} filter with a 3-gram {@link Tokenizer}
 * and stop word handling.
 *
 * @param instances the model which is to be filtered
 * @return the filter
 * @throws Exception if filter creation fails
 */
private StringToWordVector createFilter(Instances instances) throws Exception {
	NGramTokenizer tokenizer = new NGramTokenizer();
	tokenizer.setNGramMaxSize(3);

	WordsFromFile stopwordsHandler = new WordsFromFile();
	stopwordsHandler.setStopwords(FileUtils.loadFile(resourceLoader,
			dataConfig.getBaseDataDirectory() + dataConfig.getStopWordsDirectory()));

	StringToWordVector stwv = new StringToWordVector();
	stwv.setTokenizer(tokenizer);
	stwv.setTFTransform(true);
	stwv.setIDFTransform(true);
	stwv.setStopwordsHandler(stopwordsHandler);
	stwv.setLowerCaseTokens(true);
	stwv.setInputFormat(instances);
	return stwv;
}

开发者ID:venilnoronha，项目名称:movie-rating-prediction，代码行数:26，代码来源:SVMPredictorImpl.java

示例4: WordNgrams

import weka.core.tokenizers.NGramTokenizer; //导入依赖的package包/类
public static StringToWordVector WordNgrams(Properties prop) throws Exception{
    final StringToWordVector filter = new StringToWordVector();
    filter.setAttributeIndices("first-last");
    filter.setOutputWordCounts(false);
    filter.setTFTransform(false);
    filter.setIDFTransform(false);
    //if (prop.getProperty("Preprocessings.removeStopWords").equalsIgnoreCase("yes")) filter.setStopwords(new File("ressources//MotsVides.txt"));
    filter.setWordsToKeep(10000);
    filter.setMinTermFreq(1);
    NGramTokenizer tok = new NGramTokenizer();
    tok.setDelimiters(" \n 	.,;'\"()?!-/<>‘’“”…«»•&{[|`^]}$*%");
    tok.setNGramMinSize(Integer.parseInt(prop.getProperty("Ngrams.min")));
    tok.setNGramMaxSize(Integer.parseInt(prop.getProperty("Ngrams.max")));
    filter.setTokenizer(tok);
    
    return filter;
}

开发者ID:amineabdaoui，项目名称:french-sentiment-classification，代码行数:18，代码来源:Tokenisation.java

示例5: create

import weka.core.tokenizers.NGramTokenizer; //导入依赖的package包/类
@Override
public Tokenizer create(String toTokenize) {

  this.wekaTokenizer = new NGramTokenizer();
  this.wekaTokenizer.setNGramMinSize(this.nMin);
  this.wekaTokenizer.setNGramMaxSize(this.nMax);
  this.wekaTokenizer.setDelimiters(this.delimiters);

  WekaTokenizer t = new WekaTokenizer(toTokenize, wekaTokenizer);
  t.setTokenPreProcessor(tokenPreProcess);
  return t;
}

开发者ID:Waikato，项目名称:wekaDeeplearning4j，代码行数:13，代码来源:NGramTokenizerFactory.java

示例6: calculateWordCount

import weka.core.tokenizers.NGramTokenizer; //导入依赖的package包/类
@Override
public Map<String, Integer> calculateWordCount(final DocumentContentData documentContentData, final int maxResult) {

	final String html = documentContentData.getContent();

	final Attribute input = new Attribute(HTML, (ArrayList<String>) null);

	final ArrayList<Attribute> inputVec = new ArrayList<>();
	inputVec.add(input);

	final Instances htmlInst = new Instances(HTML, inputVec, 1);

	htmlInst.add(new DenseInstance(1));
	htmlInst.instance(0).setValue(0, html);


	final StopwordsHandler stopwordsHandler = new StopwordsHandler() {

		@Override
		public boolean isStopword(final String word) {

			return word.length() <5;
		}
	};

	final NGramTokenizer tokenizer = new NGramTokenizer();
	tokenizer.setNGramMinSize(1);
	tokenizer.setNGramMaxSize(1);
	tokenizer.setDelimiters(TOKEN_DELIMITERS);

	final StringToWordVector filter = new StringToWordVector();
	filter.setTokenizer(tokenizer);
	filter.setStopwordsHandler(stopwordsHandler);
	filter.setLowerCaseTokens(true);
	filter.setOutputWordCounts(true);
	filter.setWordsToKeep(maxResult);

	final Map<String,Integer> result = new HashMap<>();

	try {
		filter.setInputFormat(htmlInst);
		final Instances dataFiltered = Filter.useFilter(htmlInst, filter);

		final Instance last = dataFiltered.lastInstance();

		final int numAttributes = last.numAttributes();

		for (int i = 0; i < numAttributes; i++) {
			result.put(last.attribute(i).name(), Integer.valueOf(last.toString(i)));
		}
	} catch (final Exception e) {
		LOGGER.warn("Problem calculating wordcount for : {} , exception:{}",documentContentData.getId() ,e);
	}


	return result;
}

开发者ID:Hack23，项目名称:cia，代码行数:58，代码来源:WordCounterImpl.java

注：本文中的weka.core.tokenizers.NGramTokenizer类示例整理自Github/MSDocs等源码及文档管理平台，相关代码片段筛选自各路编程大神贡献的开源项目，源码版权归原作者所有，传播和使用请参考对应项目的License；未经允许，请勿转载。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Java ContinuousArrayData类代码示例发布时间：2022-05-23

Java IndexRecord类代码示例发布时间：2022-05-23

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18085|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9615|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8147|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8530|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8432|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9344|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8396|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7833|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8387|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7380|2022-11-06

客服电话

电子邮件

Java NGramTokenizer类代码示例

示例1: parseTokenizer

示例2: getStringToWordVectorFilter

示例3: createFilter

示例4: WordNgrams

示例5: create

示例6: calculateWordCount

请发表评论

全部评论

上一篇：

下一篇：

GitbookIO/gitbook:

juleswhite/mobile-cloud-asgn1

kyamagu/matlab-json: Use official API: h

墙壁眼睛膝盖

OpenKinect/libfreenect: Drivers and libr

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053