Java TermVector类代码示例

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› Java›Java编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文整理汇总了Java中org.apache.lucene.document.Field.TermVector类的典型用法代码示例。如果您正苦于以下问题：Java TermVector类的具体用法？Java TermVector怎么用？Java TermVector使用的例子？那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。

TermVector类属于org.apache.lucene.document.Field包，在下文中一共展示了TermVector类的11个代码示例，这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞，您的评价将有助于我们的系统推荐出更棒的Java代码示例。

示例1: createIndexWriter

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
private void createIndexWriter(List<URLContentObject> urlContentList,
	Directory ramDirectory) throws IOException
	{
Set<String> stopWords = new HashSet<String>(FileUtils.readLines(new File(baseDir+
		"data/stopwords/stopwords_en.txt")));  
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_36,stopWords);


IndexWriter indexWriter = new IndexWriter(ramDirectory, new IndexWriterConfig(Version.LUCENE_36, analyzer));
for(URLContentObject d:urlContentList)
{
	Document document = new Document();
	StringReader reader=new StringReader(d.getContent());
	document.add(new Field("id", d.getId(), Field.Store.YES, Field.Index.ANALYZED,TermVector.YES));
	document.add(new Field("contents", reader, TermVector.YES));
	//document.add(new Field("id",Integer.toString(d.getAutoIncrementId()),Field.Store.YES, Field.Index.ANALYZED));
	indexWriter.addDocument(document);
	reader.close();
}

indexWriter.commit();
indexWriter.close();



	}

开发者ID:siddBanPsu，项目名称:WikiKreator，代码行数:27，代码来源:SummarizeWebData.java

示例2: createDocument

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
private Document createDocument(Term term, String value, boolean synonym) {
	Document doc = new Document();
	
	Field ontologyField = new Field(FIELD_ONTOLOGY, 
    		term.getOntology().getName(), 
    		Field.Store.YES, 
    		Field.Index.NO,
    		TermVector.NO);
	ontologyField.setOmitNorms(true);
	ontologyField.setOmitTermFreqAndPositions(true);
	doc.add(ontologyField);
	
	Field idField = new Field(FIELD_ID, 
    		term.getReferenceId(), 
    		Field.Store.YES, 
    		Field.Index.NOT_ANALYZED,
    		TermVector.NO);
	idField.setOmitNorms(true);
	idField.setOmitTermFreqAndPositions(true);
	doc.add(idField);
	
	Field nameField = new Field(FIELD_TERM, 
	   		value, 
	   		Field.Store.YES, 
	   		Field.Index.ANALYZED,
	   		TermVector.WITH_POSITIONS_OFFSETS);
	//nameField.setOmitNorms(true);
	doc.add(nameField);
	
	doc.add(new Field(FIELD_SYNONYM,
			synonym ? new byte[] {1} : new byte[] {0},	
			Field.Store.YES));
	
	return doc;
}

开发者ID:Novartis，项目名称:ontobrowser，代码行数:36，代码来源:OntologySearchServiceImpl.java

示例3: NonDictionaryField

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
/**
 * 
 */
public NonDictionaryField(String name, Store store, Index index, TermVector termVector, boolean multiValued)
{
    this.name = name;
    this.store = store;
    this.index = index;
    this.termVector = termVector;
    this.multiValued = multiValued;
}

开发者ID:Alfresco，项目名称:community-edition-old，代码行数:12，代码来源:AlfrescoSolrDataModel.java

示例4: getCosineSimilarityMatrix

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
public static DocVector[] getCosineSimilarityMatrix(List<String> fileSentences) throws IOException{

		RAMDirectory ramDir = new RAMDirectory();
		FileReader fr=new FileReader(new File("lib/stoplists/en.txt"));

		//	Set<String> stopWords = new HashSet<String>(FileUtils.readLines(new File("stop-words.txt")));  
		Analyzer analyzer = new StopAnalyzer(Version.LUCENE_36, fr );
		//Index the full text of both documents
		//IndexWriter writer = new IndexWriter(ramDir, new StandardAnalyzer(Version.LUCENE_36), true, IndexWriter.MaxFieldLength.UNLIMITED);
		IndexWriter writer =new IndexWriter(ramDir, new IndexWriterConfig(Version.LUCENE_36, analyzer));
		for (String s:fileSentences)
		{
			Document doc1 = new Document();
			StringReader d1reader=new StringReader(s);
			doc1.add(new Field("contents", d1reader, TermVector.YES));
			writer.addDocument(doc1);
		}


		//  writer.commit();
		writer.close();

		DocVector[] docs = new DocVector[fileSentences.size()];
		//Build a term vector for each document
		IndexReader RAMreader = IndexReader.open(ramDir);
		Map<String,Integer> terms = new HashMap<String,Integer>();
		TermEnum termEnum = RAMreader.terms(new Term("contents"));

		//System.out.println(RAMreader.numDocs());
		int pos = 0;
	    while (termEnum.next()) {
	      Term term = termEnum.term();
	      if (!"contents".equals(term.field())) 
	        break;
	      terms.put(term.text(), pos++);
	    }
	    
	    //System.out.println("Num terms:"+terms.size());
   
		for(int i=0;i<fileSentences.size();i++)
		{
			TermFreqVector[] tfvs = RAMreader.getTermFreqVectors(i);
			docs[i]=new DocVector(terms);
			if (tfvs==null)
					continue;
			for (TermFreqVector tfv : tfvs) 
			{
				String[] termTexts = tfv.getTerms();
				int[] termFreqs = tfv.getTermFrequencies();
				for (int j = 0; j < termTexts.length; j++) {
					double idfValue=getIDF(RAMreader,termTexts[j]);
					double tfIdfValue=termFreqs[j]*idfValue;
					docs[i].setEntry(termTexts[j], tfIdfValue);
				}
			       
			}
			docs[i].normalize();
			
			
		}
		

		RAMreader.close();
		ramDir.close();
		//ramDir.close();
		//System.out.println(RAMreader.numDocs());
		//System.out.println("Similarity:" + calcCosineSimilarity(docs[5], docs[19]));
		return docs;

	}

开发者ID:siddBanPsu，项目名称:WikiKreator，代码行数:71，代码来源:CosineDocumentSimilarity.java

示例5: addNonDictionaryField

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
private static void addNonDictionaryField(String name, Store store, Index index, TermVector termVector, boolean multiValued)
{
    nonDictionaryFields.put(name, new NonDictionaryField(name, store, index, termVector, multiValued));
}

开发者ID:Alfresco，项目名称:community-edition-old，代码行数:5，代码来源:AlfrescoSolrDataModel.java

示例6: addAdditionalContentField

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
private static void addAdditionalContentField(String name, Store store, Index index, TermVector termVector, boolean multiValued)
{
    additionalContentFields.put(name, new NonDictionaryField(name, store, index, termVector, multiValued));
}

开发者ID:Alfresco，项目名称:community-edition-old，代码行数:5，代码来源:AlfrescoSolrDataModel.java

示例7: addAdditionalTextField

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
private static void addAdditionalTextField(String name, Store store, Index index, TermVector termVector, boolean multiValued)
{
    additionalTextFields.put(name, new NonDictionaryField(name, store, index, termVector, multiValued));
}

开发者ID:Alfresco，项目名称:community-edition-old，代码行数:5，代码来源:AlfrescoSolrDataModel.java

示例8: addAdditionalMlTextField

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
private static void addAdditionalMlTextField(String name, Store store, Index index, TermVector termVector, boolean multiValued)
{
    additionalMlTextFields.put(name, new NonDictionaryField(name, store, index, termVector, multiValued));
}

开发者ID:Alfresco，项目名称:community-edition-old，代码行数:5，代码来源:AlfrescoSolrDataModel.java

示例9: getFieldTermVec

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
/**
 * @param field
 * @return
 */
public TermVector getFieldTermVec(SchemaField field)
{
    return TermVector.NO;
}

开发者ID:Alfresco，项目名称:community-edition-old，代码行数:9，代码来源:AlfrescoSolrDataModel.java

示例10: getFieldTermVec

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
@Override
protected TermVector getFieldTermVec(SchemaField field, String internalVal)
{
    return AlfrescoSolrDataModel.getInstance(id).getFieldTermVec(field);
}

开发者ID:Alfresco，项目名称:community-edition-old，代码行数:6，代码来源:AlfrescoDataType.java

示例11: run

import org.apache.lucene.document.Field.TermVector; //导入依赖的package包/类
public double run(String doc1,String doc2) throws IOException 
    {
        // index strings
    	s[0]=doc1;
    	s[1]=doc2;
    	//System.out.print(s[0]+"\n"+s[1]+"\n");
        Directory index = new RAMDirectory();
        StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_36);
        IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_36, analyzer);
        IndexWriter writer = new IndexWriter(index, config);        
        for (String si : s) {
            Document doc = new Document();
            doc.add(new Field("content", si, Field.Store.YES, Field.Index.ANALYZED,TermVector.WITH_POSITIONS_OFFSETS));
            writer.addDocument(doc);
        }
        writer.close();
        
        // read the index
        IndexReader reader = IndexReader.open(index);
        
        // calculate tf/idf
        Map<String,Integer> terms = new HashMap<String,Integer>();
        TermEnum termEnum = reader.terms(new Term("content"));
        int pos = 0;
        while (termEnum.next()) {
            Term term = termEnum.term();
            if (! "content".equals(term.field())) break;
                terms.put(term.text(), pos++);
        }
        
//        for (int i=0; i<reader.maxDoc(); i++) {
//            if (reader.isDeleted(i))
//                continue;
//
//            Document doc = reader.document(i);
//            System.out.println(doc);
//            TermFreqVector tfvs = reader.getTermFreqVector(i,"content");
//            System.out.println(tfvs);
//        }
//        
        // apply cosine similarity
        DocVector[] docs = new DocVector[s.length];
        for (int i=0; i<s.length; i++) {
            TermFreqVector[] tfvs = reader.getTermFreqVectors(i);
            //String strip_str=tfvs.toString();
            //strip_str.replaceAll("null", "");
            
            docs[i] = new DocVector(terms); 
            //System.out.print(tfvs);
        //}
            
           for (TermFreqVector tfv : tfvs) {
                String[] termTexts = tfv.getTerms();
                int[] termFreqs = tfv.getTermFrequencies();
                for (int j = 0; j < termTexts.length; j++) {
                docs[i].setEntry(termTexts[j], termFreqs[j]);
              }
            }
            docs[i].normalize();
           
          }
        
        // now get similarity between doc[0] and doc[1]
        double cosim01 = getCosineSimilarity(docs[0], docs[1]);
        //System.out.println("cosim(0,1)=" + cosim01);
        // between doc[0] and doc[2]
       // double cosim02 = getCosineSimilarity(docs[0], docs[3]);
        //System.out.println("cosim(0,2)=" + cosim02);
        // between doc[1] and doc[3]
        //double cosim03 = getCosineSimilarity(docs[1], docs[2]);
        //System.out.println("cosim(1,2)=" + cosim03);
       
       // }
        //double cosim01=10.0;
        reader.close();
        return cosim01;
    }

开发者ID:amark-india，项目名称:eventspotter，代码行数:78，代码来源:CosineSimilarity.java

注：本文中的org.apache.lucene.document.Field.TermVector类示例整理自Github/MSDocs等源码及文档管理平台，相关代码片段筛选自各路编程大神贡献的开源项目，源码版权归原作者所有，传播和使用请参考对应项目的License；未经允许，请勿转载。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Java CoreUtility类代码示例发布时间：2022-05-22

Java IdentityLoader类代码示例发布时间：2022-05-22

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18239|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9667|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8175|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8547|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8453|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9383|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8425|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7858|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8410|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7394|2022-11-06

客服电话

电子邮件

Java TermVector类代码示例

示例1: createIndexWriter

示例2: createDocument

示例3: NonDictionaryField

示例4: getCosineSimilarityMatrix

示例5: addNonDictionaryField

示例6: addAdditionalContentField

示例7: addAdditionalTextField

示例8: addAdditionalMlTextField

示例9: getFieldTermVec

示例10: getFieldTermVec

示例11: run

请发表评论

全部评论

上一篇：

下一篇：

librespeed/speedtest: Self-hosted Speedt

avehtari/BDA_m_demos: Bayesian Data Anal

四维彩超怎么看性别？四维看男孩女孩诀窍

MATLAB第二次作业

medfreeman/markdown-it-toc-and-anchor: m

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053