Java LmReaders类代码示例

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› Java›Java编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文整理汇总了Java中edu.berkeley.nlp.lm.io.LmReaders类的典型用法代码示例。如果您正苦于以下问题：Java LmReaders类的具体用法？Java LmReaders怎么用？Java LmReaders使用的例子？那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。

LmReaders类属于edu.berkeley.nlp.lm.io包，在下文中一共展示了LmReaders类的13个代码示例，这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞，您的评价将有助于我们的系统推荐出更棒的Java代码示例。

示例1: estimateLanguaModel

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
@Override
public void estimateLanguaModel(int order, String textPath, String arpaPath) {

	//String trainArpaFilePath = workingDirPath+"/"+corpusSourceName+".arpa";

	List<String> inputFiles = new ArrayList<String>();
	inputFiles.add(textPath);

	final StringWordIndexer wordIndexer = new StringWordIndexer();
	wordIndexer.setStartSymbol(ArpaLmReader.START_SYMBOL);
	wordIndexer.setEndSymbol(ArpaLmReader.END_SYMBOL);
	wordIndexer.setUnkSymbol(ArpaLmReader.UNK_SYMBOL);

	// System.out.printf("Info: estimating language model of %s (lmorder %d) and saving in %s \n",corpusSourceFilePath,lmOrder,trainArpaFilePath);
	LmReaders.createKneserNeyLmFromTextFiles(inputFiles, wordIndexer, order, new File(arpaPath), new ConfigOptions());
}

开发者ID:nicolashernandez，项目名称:dev-star，代码行数:17，代码来源:BerkeleyLanguageModel.java

示例2: BerkeleyRawLanguageModel

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
public BerkeleyRawLanguageModel(File berkeleyLm) {
  if (!berkeleyLm.isFile()) {
    throw new RuntimeException("You need to specify a BerkeleyLM file: " + berkeleyLm);
  }
  File vocabFile = new File(berkeleyLm.getParent(), "vocab_cs.gz");
  if (!vocabFile.exists()) {
    throw new RuntimeException("No vocabulary file 'vocab_cs.gz' found in the BerkeleyLM directory: " + vocabFile);
  }
  map = LmReaders.readNgramMapFromBinary(berkeleyLm.getAbsolutePath(), vocabFile.getAbsolutePath());
  /* For some reason, this crashes with IndexOutOfBoundsException:
  System.out.println("---START");
  Map<List<String>, LongRef> mapForOrder = map.getMapForOrder(2);
  for (Map.Entry<List<String>, LongRef> entry : mapForOrder.entrySet()) {
    System.out.println("E: " + entry.getKey());
  }
  System.out.println("---DONE");*/
}

开发者ID:languagetool-org，项目名称:languagetool，代码行数:18，代码来源:BerkeleyRawLanguageModel.java

示例3: createFromFiles

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
/**
 * 
 * read ngram model from pretokenized sentences.
 * Expects one sentence per line, tokens separated by space.
 * 
 * @see see edu.berkeley.nlp.lm.io.MakeKneserNeyArpaFromText for reference
 * @param src_dir
 * @param accept_file_regex_pattern
 * @param order
 * @param arpa_filename (possibly null)
 * @return
 */
public static BerkeleyLM<String> createFromFiles(final String src_dir, final String accept_file_regex_pattern, final int order, String arpa_filename, double discount, int mincount) {
	File src_dir_ = new File(src_dir);
	if(!src_dir_.isDirectory())
		throw new IllegalArgumentException(String.format("Expected directory but got %s", src_dir_.getAbsolutePath()));
	String src_dir_name = src_dir_.getName();
	List<String> files = Arrays.asList(src_dir_.list(new FilenameFilter() {
		@Override
		public boolean accept(File dir, String name) {
			return new File(dir,name).isFile() && name.matches(accept_file_regex_pattern);
		}
	}));
	File arpa_file;
	if(arpa_filename == null)
		arpa_file = new File(src_dir, src_dir_name + ".arpa.gz");
	else
		arpa_file = new File(arpa_filename);

	final StringWordIndexer wordIndexer = new StringWordIndexer(); //indexer with default symbols
	wordIndexer.setStartSymbol(ArpaLmReader.START_SYMBOL);
	wordIndexer.setEndSymbol(ArpaLmReader.END_SYMBOL);
	wordIndexer.setUnkSymbol(ArpaLmReader.UNK_SYMBOL);

	ConfigOptions opts = new ConfigOptions();		
	opts.kneserNeyMinCounts = new double[order];
	Arrays.fill(opts.kneserNeyMinCounts, mincount);
	if(discount < 0){
		opts.kneserNeyDiscounts = null;
	}else{
		opts.kneserNeyDiscounts = new double[order];
		Arrays.fill(opts.kneserNeyDiscounts, discount);
	}
	opts.unknownWordLogProb = Properties.knUnkLog10Prob();

	LmReaders.createKneserNeyLmFromTextFiles(files, wordIndexer, order, arpa_file, new ConfigOptions());
	return loadFromArpaFile(arpa_file.getAbsolutePath());
}

开发者ID:tudarmstadt-lt，项目名称:topicrawler，代码行数:49，代码来源:BerkeleyLM.java

示例4: LMGrammarBerkeley

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
public LMGrammarBerkeley(int order, String lm_file) {
  super(order);
  vocabIdToMyIdMapping = new int[10];

  if (!new File(lm_file).exists()) {
    throw new RuntimeException("Can't read lm_file '" + lm_file + "'");
  }

  if (logRequests) {
    logger.addHandler(logHandler);
    logger.setLevel(Level.FINEST);
    logger.setUseParentHandlers(false);
  }

  try { // try binary format (even gzipped)
    lm = (ArrayEncodedNgramLanguageModel<String>) LmReaders.<String>readLmBinary(lm_file);
    LOG.info("Loading Berkeley LM from binary {}", lm_file);
  } catch (RuntimeException e) {
    ConfigOptions opts = new ConfigOptions();
    LOG.info("Loading Berkeley LM from ARPA file {}", lm_file);
    final StringWordIndexer wordIndexer = new StringWordIndexer();
    ArrayEncodedNgramLanguageModel<String> berkeleyLm =
        LmReaders.readArrayEncodedLmFromArpa(lm_file, false, wordIndexer, opts, order);

    lm = ArrayEncodedCachingLmWrapper.wrapWithCacheThreadSafe(berkeleyLm);
  }
  this.unkIndex = lm.getWordIndexer().getOrAddIndex(lm.getWordIndexer().getUnkSymbol());
}

开发者ID:apache，项目名称:incubator-joshua，代码行数:29，代码来源:LMGrammarBerkeley.java

示例5: createLM

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
public static void createLM(final String fileName, final float lm[][],
		final int index, final int corpus[][]) {

	jobs.execute(new Runnable() {

		@Override
		public void run() {
			log.info("Creating language model");

			NgramLanguageModel<String> createdLM = null;
			final int lmOrder = 4;
			final List<String> inputFiles = new ArrayList<String>();
			inputFiles.add(fileName);
			final StringWordIndexer wordIndexer = new StringWordIndexer();
			wordIndexer.setStartSymbol(ArpaLmReader.START_SYMBOL);
			wordIndexer.setEndSymbol(ArpaLmReader.END_SYMBOL);
			wordIndexer.setUnkSymbol(ArpaLmReader.UNK_SYMBOL);

			createdLM = LmReaders
					.readContextEncodedKneserNeyLmFromTextFile(inputFiles,
							wordIndexer, lmOrder, new ConfigOptions(),
							new File(fileName + ".lm"));

			lm[index] = new float[corpus.length];
			
			for (int i = 0; i < corpus.length; i++) {
				int sent[] = corpus[i];
				lm[index][i] = getLMProb(createdLM, sent);
			}

			log.info(".");

			InvitationModel.latch.countDown();
		}

	});
}

开发者ID:amirkamran，项目名称:InvitationModel，代码行数:38，代码来源:InvitationModel.java

示例6: readLmFromFile

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
/**
 * decides if the lm is stored in a binary file (based on extensions .b,
 * .bi, .bin, .binary)
 * 
 * @param lmfile
 */
private void readLmFromFile(String lmfile) {
	System.err.println("Loading language model from " + lmfile);
	StringWordIndexer swi = new StringWordIndexer();
	NgramLanguageModel<String> ngramLm;
	if (lmfile.endsWith(".b") || lmfile.endsWith(".bi")
			|| lmfile.endsWith(".bin") || lmfile.endsWith("binary")) {
		ngramLm = LmReaders.readLmBinary(lmfile);
	} else {
		ngramLm = LmReaders
				.readArrayEncodedLmFromArpa(lmfile, false, swi);
	}
	lm = ArrayEncodedCachingLmWrapper
			.wrapWithCacheNotThreadSafe((ArrayEncodedNgramLanguageModel<String>) ngramLm);
}

开发者ID:siddBanPsu，项目名称:WikiKreator，代码行数:21，代码来源:MyBerkeleyLm.java

示例7: readLmFromFile

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
private void readLmFromFile(String lmfile) {
	System.err.println("Loading language model from " + lmfile);
	StringWordIndexer swi = new StringWordIndexer();
	NgramLanguageModel<String> ngramLm;
	if (lmfile.endsWith(".b") || lmfile.endsWith(".bi")
			|| lmfile.endsWith(".bin") || lmfile.endsWith("binary")) {
		ngramLm = LmReaders.readLmBinary(lmfile);
	} else {
		ngramLm = LmReaders
				.readArrayEncodedLmFromArpa(lmfile, false, swi);
	}
	lm = ArrayEncodedCachingLmWrapper
			.wrapWithCacheNotThreadSafe((ArrayEncodedNgramLanguageModel<String>) ngramLm);
}

开发者ID:siddBanPsu，项目名称:WikiKreator，代码行数:15，代码来源:LMReader.java

示例8: loadLanguageModel

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
/**
 * The return value should be casted in ArrayEncodedProbBackoffLm<String>
 */
@Override
public  void loadLanguageModel(String arpaPath) {
	File arpaFile = new File(arpaPath);
	ConfigOptions configOptions = new ConfigOptions();
	configOptions.storeRankedProbBackoffs = false;
	configOptions.unknownWordLogProb = -10.0f;
	
	setLM( LmReaders.readArrayEncodedLmFromArpa(arpaFile.getPath(), false, new StringWordIndexer(), configOptions,
			Integer.MAX_VALUE));

}

开发者ID:nicolashernandez，项目名称:dev-star，代码行数:15，代码来源:BerkeleyLanguageModel.java

示例9: BerkeleyLanguageModel

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
public BerkeleyLanguageModel(File berkeleyLm) {
  if (!berkeleyLm.isFile()) {
    throw new RuntimeException("You need to specify a BerkeleyLM file (*.blm.gz): " + berkeleyLm);
  }
  File vocabFile = new File(berkeleyLm.getParent(), "vocab_cs.gz");
  if (!vocabFile.exists()) {
    throw new RuntimeException("No vocabulary file 'vocab_cs.gz' found in the BerkeleyLM directory: " + vocabFile);
  }
  lm = LmReaders.readGoogleLmBinary(berkeleyLm.getAbsolutePath(), vocabFile.getAbsolutePath());
}

开发者ID:languagetool-org，项目名称:languagetool，代码行数:11，代码来源:BerkeleyLanguageModel.java

示例10: readFromBinary

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
public static <W> BerkeleyLM<W> readFromBinary(File file) {
	@SuppressWarnings("unchecked")
	ArrayEncodedNgramLanguageModel<W> berkeley_language_model = (ArrayEncodedNgramLanguageModel<W>) LmReaders.readLmBinary(file.getAbsolutePath());
	return new BerkeleyLM<W>(berkeley_language_model);
}

开发者ID:tudarmstadt-lt，项目名称:topicrawler，代码行数:6，代码来源:LanguageModelHelper.java

示例11: saveAsBinary

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
public static <W> void saveAsBinary(BerkeleyLM<W> blm, File file) {
	LmReaders.writeLmBinary(blm.get(), file.getAbsolutePath());
}

开发者ID:tudarmstadt-lt，项目名称:topicrawler，代码行数:4，代码来源:LanguageModelHelper.java

示例12: createFileFromText

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
public static void createFileFromText() {
	// MakeKneserNeyArpaFromText.main(new String[] { "3", "lmorder3.arpa", "in/1.txt" });
	String txtfile = "src/test/resources/test.txt";
	String arpafile = "_svnignore/test.arpa.gz";
	String binfile = "_svnignore/test.blm.gz";

	// if (!new File(arpafile).exists()) {
	final StringWordIndexer wordIndexer = new StringWordIndexer();
	wordIndexer.setStartSymbol(ArpaLmReader.START_SYMBOL);
	wordIndexer.setEndSymbol(ArpaLmReader.END_SYMBOL);
	wordIndexer.setUnkSymbol(ArpaLmReader.UNK_SYMBOL);
	ConfigOptions opts = new ConfigOptions();
	opts.kneserNeyDiscounts = new double[] { 0.75f, 0.6f, 0.6f };
	opts.kneserNeyMinCounts = new double[] { 0, 0, 0, 0, 0, 0, 0 };

	final TextReader<String> reader = new TextReader<String>(Arrays.asList(txtfile), wordIndexer);
	KneserNeyLmReaderCallback<String> kneserNeyReader = new KneserNeyLmReaderCallback<String>(wordIndexer, 3, opts);
	reader.parse(kneserNeyReader);
	// NgramLanguageModel<String> lm = kneserNeyReader;

	kneserNeyReader.parse(new KneserNeyFileWritingLmReaderCallback<String>(new File(arpafile), wordIndexer));
	//		}
	//		if (!new File(binfile).exists()) {
	//			// HASH OPT
	NgramLanguageModel<String> lm = LmReaders.readArrayEncodedLmFromArpa(arpafile, false);
	//			// CONTEXT OPT
	//			// NgramLanguageModel<String> lm = LmReaders.readContextEncodedLmFromArpa(arpafile);
	//			// HASH COMPRESS OPT
	//			// NgramLanguageModel<String> lm = LmReaders.readArrayEncodedLmFromArpa(arpafile, true);
	//
	//			LmReaders.writeLmBinary(lm, binfile);
	//		}
	//
	//		// NgramLanguageModel<String> lm = LmReaders.readLmBinary(binfile);
	//		NgramLanguageModel<String> lm = LmReaders.readArrayEncodedLmFromArpa(arpafile, false);


	System.out.println(lm.getLogProb(Arrays.asList("Hallo")));
	System.out.println(lm.getLogProb(Arrays.asList("schöne", "neue", "welt")));
	System.out.println(lm.getLogProb(Arrays.asList("schöne", "neue", "pups")));
	System.out.println(lm.getLogProb(Arrays.asList("schöne", "neue", "globus")));
	System.out.println(lm.getLogProb(Arrays.asList("schöne", "neue", "erde")));

	// LmReaders.readn


}

开发者ID:tudarmstadt-lt，项目名称:topicrawler，代码行数:48，代码来源:BerkeleyLmPlayground.java

示例13: loadLanguageModel

import edu.berkeley.nlp.lm.io.LmReaders; //导入依赖的package包/类
/**
 * The return value should be casted in ArrayEncodedProbBackoffLm<String>
 */
@Override
public  void loadLanguageModel(String binaryPath) {
		 this.blm =(ArrayEncodedNgramLanguageModel) LmReaders.readLmBinary(binaryPath);
	}

开发者ID:nicolashernandez，项目名称:dev-star，代码行数:8，代码来源:BinaryBerkeleyLanguageModel.java

注：本文中的edu.berkeley.nlp.lm.io.LmReaders类示例整理自Github/MSDocs等源码及文档管理平台，相关代码片段筛选自各路编程大神贡献的开源项目，源码版权归原作者所有，传播和使用请参考对应项目的License；未经允许，请勿转载。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Java AnnotationEntry类代码示例发布时间：2022-05-23

Java Video类代码示例发布时间：2022-05-23

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：17897|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9546|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8115|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8494|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8400|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9284|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8364|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7790|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8346|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7351|2022-11-06

客服电话

电子邮件

Java LmReaders类代码示例

示例1: estimateLanguaModel

示例2: BerkeleyRawLanguageModel

示例3: createFromFiles

示例4: LMGrammarBerkeley

示例5: createLM

示例6: readLmFromFile

示例7: readLmFromFile

示例8: loadLanguageModel

示例9: BerkeleyLanguageModel

示例10: readFromBinary

示例11: saveAsBinary

示例12: createFileFromText

示例13: loadLanguageModel

请发表评论

全部评论

上一篇：

下一篇：

Delphiclientdataset的详细介绍

librespeed/speedtest: Self-hosted Speedt

avehtari/BDA_m_demos: Bayesian Data Anal

四维彩超怎么看性别？四维看男孩女孩诀窍

medfreeman/markdown-it-toc-and-anchor: m

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053