服务器之家

服务器之家 > 正文

java poi解析word的方法

时间:2020-09-25 15:14     来源/作者:chanjuan

之前做过用java读取word文档,获取word文本内容。

但发现docx的支持,doc就异常了。

后来找了很多资料发现是解析方法不一样。

首先要导入poi相关的jar包

我用的是maven,pom.xml引入如下:

?
1
2
3
4
5
6
7
8
9
10
<dependency>
      <groupId>org.apache.poi</groupId>
      <artifactId>poi-ooxml</artifactId>
      <version>3.8</version>
    </dependency>
    <dependency>
      <groupId>org.apache.poi</groupId>
      <artifactId>poi-scratchpad</artifactId>
      <version>3.8</version>
    </dependency>

java获取word文本内容如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
public BaseResp getParsedTxt(MultipartFile file) throws Exception {
    BaseResp br=new BaseResp("200","") ;
    String textType = file.getContentType();
    String txt = "";
    if(textType.equals(TXT_TYPE)){
      String code = getCharset(file);
      txt = new String(file.getBytes(),code);
    }else if(textType.equals(DOC_TYPE)){
      HWPFDocument doc = new HWPFDocument(file.getInputStream());
      Range rang = doc.getRange();
      txt = rang.text();
      System.out.println(txt);
    }else if(textType.equals(DOCX_TYPE)){
      File uFile = new File("tempFile.docx");
      if(!uFile.exists()){
        uFile.createNewFile();
      }
      FileCopyUtils.copy(file.getBytes(), uFile);
      OPCPackage opcPackage = POIXMLDocument.openPackage("tempFile.docx");
      POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
      txt= extractor.getText();
      uFile.delete();
    }else{
      br = new BaseResp("300","上传文件格式错误,请上传.txt或者.docx");
      return br;
    }
    br.setDatas(txt);
    return br;
  }

功能实现了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。

标签:

相关文章

热门资讯

2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全
2020微信伤感网名听哭了 让对方看到心疼的伤感网名大全 2019-12-26
Intellij idea2020永久破解,亲测可用!!!
Intellij idea2020永久破解,亲测可用!!! 2020-07-29
歪歪漫画vip账号共享2020_yy漫画免费账号密码共享
歪歪漫画vip账号共享2020_yy漫画免费账号密码共享 2020-04-07
电视剧《琉璃》全集在线观看 琉璃美人煞1-59集免费观看地址
电视剧《琉璃》全集在线观看 琉璃美人煞1-59集免费观看地址 2020-08-12
最新idea2020注册码永久激活(激活到2100年)
最新idea2020注册码永久激活(激活到2100年) 2020-07-29
返回顶部