Java OutputDocument类代码示例

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程› Java›Java编程经验

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文整理汇总了Java中net.htmlparser.jericho.OutputDocument类的典型用法代码示例。如果您正苦于以下问题：Java OutputDocument类的具体用法？Java OutputDocument怎么用？Java OutputDocument使用的例子？那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。

OutputDocument类属于net.htmlparser.jericho包，在下文中一共展示了OutputDocument类的15个代码示例，这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞，您的评价将有助于我们的系统推荐出更棒的Java代码示例。

示例1: processPage

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
protected String processPage( PathOrigin baseDir, String pagePath ) throws IOException {

    long start = System.currentTimeMillis();
    InputStream file = null;
    try {
      file = baseDir.getReader( getRepo() ).getFileInputStream( pagePath );
      Source html = new Source( file ); 
      OutputDocument outDoc = new OutputDocument( html );
      // transform
      modifyDocument( html, baseDir, outDoc );
      return outDoc.toString();
    } finally {
      IOUtils.closeQuietly( file );
      if ( log.isDebugEnabled() ) {
        log.debug( String.format( "processPage for %s took %dms", pagePath, System.currentTimeMillis() - start ) );
      }
    }

  }

开发者ID:webdetails，项目名称:cte，代码行数:20，代码来源:ProcessedHtmlPage.java

示例2: replaceUrlAttribute

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
protected int replaceUrlAttribute ( Iterable<StartTag> tags, final String pathAttribute, PathOrigin baseDir, OutputDocument doc ) {
  int count = 0;
  for ( StartTag tag : tags ) {
    Attributes attr = tag.parseAttributes();
    String path = attr.getValue( pathAttribute );
    if ( shouldProcessPath( path ) ) {
      String newPath = processPath( baseDir, path, getUrlProvider() );
      if ( log.isTraceEnabled() ) { //TODO: trace
        log.trace( String.format( "replaced: in %[email protected]%s \"%s\" --> \"%s\"", tag.getName(), pathAttribute, path, newPath ) );
      }
      doc.replace( attr, true ).put( pathAttribute, newPath );
      count++;
    }
  }
  return count;
}

开发者ID:webdetails，项目名称:cte，代码行数:17，代码来源:ProcessedHtmlPage.java

示例3: strip

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
/**
	 * Retira tags indesejadas
	 * 
	 * @param html
	 * @return
	 */
	public String strip(String html) {

		
		if (html == null)
			return "";
		Source source = new Source(html);
		source.fullSequentialParse();
		OutputDocument output = new OutputDocument(source);
		List<Tag> tags = source.getAllTags();

		for (Tag tag : tags) {
			if (processTag(tag, output)) {
				tag.setUserData(VALID_MARKER);
			} else {
				output.remove(tag);
			}
//			reencodeTextSegment(source, output, pos, tag.getBegin());
		}
//		reencodeTextSegment(source, output, pos, source.getEnd());
		return output.toString();
	}

开发者ID:camaradosdeputadosoficial，项目名称:edemocracia，代码行数:28，代码来源:HtmlStripperDiscussion.java

示例4: strip

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
/**
 * Retira tags indesejadas
 * 
 * @param html
 * @return
 */
public String strip(String html) {
	if (html == null)
		return "";
	Source source = new Source(html);
	source.fullSequentialParse();
	OutputDocument output = new OutputDocument(source);
	List<Tag> tags = source.getAllTags();
	int pos = 0;
	for (Tag tag : tags) {
		if (processTag(tag, output)) {
			tag.setUserData(VALID_MARKER);
		} else {
			output.remove(tag);
		}
		reencodeTextSegment(source, output, pos, tag.getBegin());
		pos = tag.getEnd();
	}
	reencodeTextSegment(source, output, pos, source.getEnd());
	return output.toString();
}

开发者ID:camaradosdeputadosoficial，项目名称:edemocracia，代码行数:27，代码来源:HtmlStripper.java

示例5: printHTMLPage

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
public void printHTMLPage(Source source)
        throws UnsupportedEncodingException, IOException {
    List<StartTag> list = source.getAllStartTags(HTMLElementName.STYLE);
    Iterator<StartTag> iterator = list.iterator();
    String text = "";
    while (iterator.hasNext()) {
        final StartTag tag = iterator.next();
        final Segment s = new Segment(source, tag.getEnd(), tag
                .getElement().getEndTag().getBegin());
        text += s.toString();
    }
    Vector<ReplaceRight> rights = Style.getStyles(text, styles, counter);

    // генерація сторінки з оновленими стилями.

    list = source.getAllStartTags();
    iterator = list.iterator();
    StartTag startTag = null;
    while (iterator.hasNext()) {
        final StartTag st = iterator.next();
        if (HTMLElementName.BODY.equals(st.getName())) {
            startTag = st;
            break;
        }
    }
    if (startTag == null)
        return;

    final StartTag body = startTag;
    final OutputDocument document = new OutputDocument(source);
    while (iterator.hasNext()) {
        startTag = iterator.next();
        replaceAttrs(startTag, document, rights);
    }

    OutputStreamWriter writer = new OutputStreamWriter(this.out, "UTF-8");
    document.writeTo(writer, body.getEnd(), body.getElement().getEndTag()
            .getBegin());
    writer.flush();
}

开发者ID:Vitaliy-Yakovchuk，项目名称:ramus，代码行数:41，代码来源:Out.java

示例6: modifyDocument

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
/**
 * Updates relative source attributes to externally accessible abs paths
 * @param html the document
 * @param baseDir html location
 * @param out processed document
 */
protected void modifyDocument( Source html, PathOrigin baseDir, OutputDocument out ) {
  replaceUrlAttribute( html.getAllStartTags( HTMLElementName.LINK ), "href", baseDir, out );
  replaceUrlAttribute( html.getAllStartTags( HTMLElementName.SCRIPT ), "src", baseDir, out );
  replaceUrlAttribute( html.getAllStartTags( HTMLElementName.IMG ), "src", baseDir, out );
  //int insertPos = html.getFirstElement( HTMLElementName.HEAD ).getEndTag().getBegin();
  //out.insert( insertPos, getCodeSnippet( getBackendAssignments( getUrlProvider() ) ) );
}

开发者ID:webdetails，项目名称:cte，代码行数:14，代码来源:ProcessedHtmlPage.java

示例7: sanitise

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
private static String sanitise(String pseudoHTML, boolean formatWhiteSpace, boolean stripInvalidElements) {
	Source source=new Source(pseudoHTML);
	source.fullSequentialParse();
	OutputDocument outputDocument=new OutputDocument(source);
	List<Tag> tags=source.getAllTags();
	int pos=0;
	for (Tag tag : tags) {
		if (processTag(tag,outputDocument)) {
			tag.setUserData(VALID_MARKER);
		} else {
			if (!stripInvalidElements) continue; // element will be encoded along with surrounding text
			if (!stripInvalidElements) continue; // element will be encoded along with surrounding text
			if(tag.getName().equalsIgnoreCase("style")){
				Tag nextTag=tag.getNextTag();
				int endPos=0;
				if(nextTag!=null){
					endPos=nextTag.getBegin()-1;
				}else{
					endPos=source.getEnd();
				}
				outputDocument.remove(tag.getBegin(),endPos);
			}else{
				outputDocument.remove(tag);
			}
		}
		//reencodeTextSegment(source,outputDocument,pos,tag.getBegin(),formatWhiteSpace);
		pos=tag.getEnd();
	}
	//reencodeTextSegment(source,outputDocument,pos,source.getEnd(),formatWhiteSpace);
	return outputDocument.toString();
}

开发者ID:trackplus，项目名称:Genji，代码行数:32，代码来源:HTMLSanitiser.java

示例8: processTag

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
private static boolean processTag(Tag tag, OutputDocument outputDocument) {
	String elementName=tag.getName();
	if (!VALID_ELEMENT_NAMES.contains(elementName)){
		//System.out.println("Not ok tag:!"+elementName+"!");
		return false;
	}
	if (tag.getTagType()==StartTagType.NORMAL) {
		Element element=tag.getElement();
		if (elementName==HTMLElementName.THEAD && !isValidTbodyTHeadTag(tag)) return false;
		if (elementName==HTMLElementName.TBODY && !isValidTbodyTHeadTag(tag)) return false;
		if (elementName==HTMLElementName.TR && !isValidTRTag(tag)) return false;
		if (elementName==HTMLElementName.TD && !isValidTDTHTag(tag)) return false;
		if (elementName==HTMLElementName.TH && !isValidTDTHTag(tag)) return false;
		if (HTMLElements.getEndTagRequiredElementNames().contains(elementName)) {
			if (element.getEndTag()==null) return false; // reject start tag if its required end tag is missing
		} else if (HTMLElements.getEndTagOptionalElementNames().contains(elementName)) {
			if (elementName==HTMLElementName.LI && !isValidLITag(tag)) return false; // reject invalid LI tags
			if (element.getEndTag()==null) outputDocument.insert(element.getEnd(),getEndTagHTML(elementName)); // insert optional end tag if it is missing
		}
		outputDocument.replace(tag,getStartTagHTML(element.getStartTag()));
	} else if (tag.getTagType()==EndTagType.NORMAL) {
		if (tag.getElement()==null) return false; // reject end tags that aren't associated with a start tag
		if (elementName==HTMLElementName.THEAD && !isValidTbodyTHeadTag(tag)) return false;
		if (elementName==HTMLElementName.TBODY && !isValidTbodyTHeadTag(tag)) return false;
		if (elementName==HTMLElementName.TR && !isValidTRTag(tag)) return false;
		if (elementName==HTMLElementName.TD && !isValidTDTHTag(tag)) return false;
		if (elementName==HTMLElementName.TH && !isValidTDTHTag(tag)) return false;
		if (elementName==HTMLElementName.LI && !isValidLITag(tag)) return false; // reject invalid LI tags
		outputDocument.replace(tag,getEndTagHTML(elementName));
	} else {
		return false; // reject abnormal tags
	}
	return true;
}

开发者ID:trackplus，项目名称:Genji，代码行数:35，代码来源:HTMLSanitiser.java

示例9: reencodeTextSegment

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
private static void reencodeTextSegment(Source source, OutputDocument outputDocument, int begin, int end, boolean formatWhiteSpace) {
  if (begin>=end) return;
  Segment textSegment=new Segment(source,begin,end);
	String decodedText=CharacterReference.decode(textSegment);
	String encodedText=formatWhiteSpace ? CharacterReference.encodeWithWhiteSpaceFormatting(decodedText) : CharacterReference.encode(decodedText);
   outputDocument.replace(textSegment,encodedText);
}

开发者ID:trackplus，项目名称:Genji，代码行数:8，代码来源:HTMLSanitiser.java

示例10: processTag

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
private boolean processTag(Tag tag, OutputDocument output) {
	String elementName = tag.getName().toLowerCase();
	if (!allowedTags.contains(elementName))
		return false;
	if (tag.getTagType() == StartTagType.NORMAL) {
		Element element = tag.getElement();
		if (HTMLElements.getEndTagRequiredElementNames().contains(
				elementName)) {
			if (element.getEndTag() == null)
				return false; // reject start tag if its required end tag is
								// missing
		} else if (HTMLElements.getEndTagOptionalElementNames().contains(
				elementName)) {
			if (elementName == HTMLElementName.LI && !isValidLITag(tag))
				return false; // reject invalid LI tags
			if (element.getEndTag() == null)
				output.insert(element.getEnd(), getEndTagHTML(elementName)); // insert
																				// optional
																				// end
																				// tag
																				// if
																				// it
																				// is
																				// missing
		}
		output.replace(tag, getStartTagHTML(element.getStartTag()));
	} else if (tag.getTagType() == EndTagType.NORMAL) {
		if (tag.getElement() == null)
			return false; // reject end tags that aren't associated with a
							// start tag
		if (elementName == HTMLElementName.LI && !isValidLITag(tag))
			return false; // reject invalid LI tags
		output.replace(tag, getEndTagHTML(elementName));
	} else {
		return false; // reject abnormal tags
	}
	return true;
}

开发者ID:camaradosdeputadosoficial，项目名称:edemocracia，代码行数:39，代码来源:HtmlStripperDiscussion.java

示例11: reencodeTextSegment

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
private void reencodeTextSegment(Source source, OutputDocument output, int begin, int end) {
	if (begin >= end)
		return;
	Segment textSegment = new Segment(source, begin, end);
	String decodedText = CharacterReference.decode(textSegment);
	String encodedText = CharacterReference.encode(decodedText);
	output.replace(textSegment, encodedText);
}

开发者ID:camaradosdeputadosoficial，项目名称:edemocracia，代码行数:9，代码来源:HtmlStripper.java

示例12: processTag

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
private boolean processTag(Tag tag, OutputDocument output) {
	String elementName = tag.getName().toLowerCase();
	if (!allowedTags.contains(elementName))
		return false;
	if (tag.getTagType() == StartTagType.NORMAL) {
		Element element = tag.getElement();
		if (HTMLElements.getEndTagRequiredElementNames().contains(elementName)) {
			if (element.getEndTag() == null)
				return false; // reject start tag if its required end tag is
				              // missing
		} else if (HTMLElements.getEndTagOptionalElementNames().contains(elementName)) {
			if (elementName == HTMLElementName.LI && !isValidLITag(tag))
				return false; // reject invalid LI tags
			if (element.getEndTag() == null)
				// insert optional end tag if it is missing
				output.insert(element.getEnd(), getEndTagHTML(elementName));
		}
		output.replace(tag, getStartTagHTML(element.getStartTag()));
	} else if (tag.getTagType() == EndTagType.NORMAL) {
		if (tag.getElement() == null)
			return false; // reject end tags that aren't associated with a
			              // start tag
		if (elementName == HTMLElementName.LI && !isValidLITag(tag))
			return false; // reject invalid LI tags
		output.replace(tag, getEndTagHTML(elementName));
	} else {
		return false; // reject abnormal tags
	}
	return true;
}

开发者ID:camaradosdeputadosoficial，项目名称:edemocracia，代码行数:31，代码来源:HtmlStripper.java

示例13: reencodeTextSegment

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
private void reencodeTextSegment(Source source, OutputDocument output,
		int begin, int end) {
	if (begin >= end)
		return;
	Segment textSegment = new Segment(source, begin, end);
	String decodedText = CharacterReference.decode(textSegment);
	String encodedText = CharacterReference.encode(decodedText);
	output.replace(textSegment, encodedText);
}

开发者ID:camaradosdeputadosoficial，项目名称:edemocracia，代码行数:10，代码来源:HtmlStripper.java

示例14: realWriteWithHTMLUpdate

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
public void realWriteWithHTMLUpdate() throws IOException {
    flush();
    ByteArrayOutputStream out = (ByteArrayOutputStream) this.out;
    Source source = new Source(new String(out.toByteArray(), "UTF-8"));
    source.fullSequentialParse();
    List<StartTag> list = source.getAllStartTags("html");
    if (list.size() == 0) {
        realWrite();
        return;
    }

    this.out = outputStream;

    OutputStreamWriter writer = new OutputStreamWriter(this.out, "UTF-8");
    OutputDocument document = new OutputDocument(source);

    StringBuffer style = new StringBuffer();
    if (this.styles.size() > 0) {
        for (Style style2 : this.styles)
            style.append(style2.toString());
    }

    List<StartTag> h = source.getAllStartTags("style");
    if (h.size() > 0) {
        document.insert(h.get(0).getElement().getEndTag().getBegin(), style);
    } else {

        style.insert(0, "\n<style>\n");
        style.append("</style>\n");

        h = source.getAllStartTags("head");
        if (h.size() > 0) {
            document.insert(h.get(0).getElement().getEndTag().getBegin(),
                    style);
        } else {
            style.insert(0, "\n<head>\n");
            style.append("</head>\n");
            document.insert(h.get(0).getElement().getEndTag().getBegin(),
                    style);
        }
    }
    document.writeTo(writer);
    writer.flush();

}

开发者ID:Vitaliy-Yakovchuk，项目名称:ramus，代码行数:46，代码来源:Out.java

示例15: removeNotAllowedTags

import net.htmlparser.jericho.OutputDocument; //导入依赖的package包/类
/**
    * Serduszko dla Bartka od Kasi <3
    * @param htmlFragment
    * @param docUri
    * @return
    */
   private String removeNotAllowedTags(String htmlFragment, URI docUri) {
       Source source = new Source(htmlFragment);
       OutputDocument outputDocument = new OutputDocument(source);
       List<Element> elements = source.getAllElements();


    for (Element element : elements) {
    	Attributes attrs = element.getAttributes();
    	Map<String, String> attrsUpdate = outputDocument.replace(attrs, true);
    	if (!element.getName().contains("a")) {
			attrsUpdate.clear();
		} else {
    		if (attrsUpdate.get("href")!=null) {
	    		String link = attrsUpdate.get("href");
	    		if (!link.contains("http")) {
		    		URI documentUri = docUri;

		    		URI anchorUri;
					try {
						anchorUri = new URI(link);
						URI result = documentUri.resolve(anchorUri);

						attrsUpdate.put("href",	result.toString());
					} catch (URISyntaxException e) {
						outputDocument.remove(element);
					}
	    		}
    		}
    	}

    	if (NOT_ALLOWED_HTML_TAGS.contains(element.getName())) {
    		Segment content = element.getContent();
    		if (element.getName() == "script"
    				|| element.getName() == "style"
    				|| element.getName() == "form") {
    			outputDocument.remove(content);
    		}
            outputDocument.remove(element.getStartTag());

            if (!element.getStartTag().isSyntacticalEmptyElementTag()) {
                outputDocument.remove(element.getEndTag());
            }
        }
    }

    String out = outputDocument.toString();
    out = out.replaceAll("\\n", "");
    out = out.replaceAll("\\t", "");

    return out;
}

开发者ID:BartoszJarocki，项目名称:android-boilerpipe，代码行数:58，代码来源:HtmlArticleExtractor.java

注：本文中的net.htmlparser.jericho.OutputDocument类示例整理自Github/MSDocs等源码及文档管理平台，相关代码片段筛选自各路编程大神贡献的开源项目，源码版权归原作者所有，传播和使用请参考对应项目的License；未经允许，请勿转载。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

Java Scheme类代码示例发布时间：2022-05-22

Java ConnectionState类代码示例发布时间：2022-05-22

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18245|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9668|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8175|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8547|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8454|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9383|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8426|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7858|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8410|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7394|2022-11-06

客服电话

电子邮件

Java OutputDocument类代码示例

示例1: processPage

示例2: replaceUrlAttribute

示例3: strip

示例4: strip

示例5: printHTMLPage

示例6: modifyDocument

示例7: sanitise

示例8: processTag

示例9: reencodeTextSegment

示例10: processTag

示例11: reencodeTextSegment

示例12: processTag

示例13: reencodeTextSegment

示例14: realWriteWithHTMLUpdate

示例15: removeNotAllowedTags

请发表评论

全部评论

上一篇：

下一篇：

bradtraversy/iweather: Ionic 3 mobile we

微信小程序如何刷新当前界面

joaomh/curso-de-matlab

断牙刷新位置时间（断牙属性及刷新位置介绍

rugk/mastodon-simplified-federation: Sim

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053