一、了解XML 1.1 概念 概念:Extensible Markup Language 可扩展标记语言
可扩展:标签都是自定义的,只要符合命名规则
功能:存储数据
XML与HTML区别
XML标签是自定义;HTML标签是预定义 XML语法严格;HTML语法松散 XML存储数据;HTML展示数据 W3C(World Wide Web Consortium):万维网联盟
由于各种浏览器的恶性竞争,有的浏览器不用写属性的引号,有的浏览器甚至不用写html根标签。这样的竞争导致HTML不够规范,W3C为此出了严格规范的XML,打算代替HTML。事实却不是这样。因为太过规范,开发人员并不接受。
由此,XML改变了方向,向存储数据的方向发展。
properties只能存储简单的数据;复杂的数据,还需要用XML
1.2 语法 快速入门
1 2 3 4 5 6 7 8 9 10 11 12 13 <?xml version="1.0" encoding="UTF-8"?> <users > <user > <name > 邪月</name > <age > 23</age > <gender > 男</gender > </user > <user > <name > 胡列娜</name > <age > 22</age > <gender > 女</gender > </user > </users >
基本语法
文档的后缀名.xml xml第一行必须为文档声明 xml有且仅有一个根标签 属性值必须使用引号,单双都可 标签必须正确关闭,必须有结束标签。自闭合标签也可 标签区分大小写 组成部分
文档声明 指令 标签 属性 文本内容 文档声明
属性列表
version:版本号,必须的属性。版本还有个1.1,但是还有很多问题。所以1.0依然是最常用的xml版本 encoding:编码方式。告知解析引擎,当前的文档使用的字符集,默认值iso-8859-1 standalone:是否独立,不依赖与其他文件。yes或者no 指令
可以结合css修改样式
1 2 3 4 5 6 7 8 9 10 11 12 13 14 <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/css" href="a.css"?> <users > <user > <name > 邪月</name > <age > 23</age > <gender > 男</gender > </user > <user > <name > 胡列娜</name > <age > 22</age > <gender > 女</gender > </user > </users >
标签
xml元素必须包含以下命名规则:
名称可以包含字母、数字以及其他的字符 名称不能以数字或者标点符号开始 名称不能以字母 xml(或者 XML、Xml 等等)开始 名称不能包含空格 属性 :id属性值唯一
文本内容
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 <?xml version="1.0" encoding="UTF-8"?> <users > <user > <name > 邪月</name > <age > 23</age > <gender > 男</gender > </user > <user > <name > 胡列娜</name > <age > 22</age > <gender > 女</gender > <code1 > if(a< b& & b> c){}</code1 > <code2 > <![CDATA[ if(a<b&&b>c){} ]]></code2 > </user > </users >
二、XML约束 2.1 概念 软件使用者编写 XML
软件框架解析 XML
其中,规定XML文档的书写规则的叫做说明文档,也叫约束文档。由框架开发人员开发约束文档。软件使用者阅读约束文档
约束 :规定XML文档的书写规则。
对框架使用者的要求:
能够在XML中引入约束文档 能够读懂约束文档 2.2 分类 DTD:一种简单的约束技术 Schema:一种复杂的约束技术 DTD 引入dtd文档到xml文档中
内部dtd:将约束规则在xml文档中 外部dtd:将约束规则定义在外部的dtd文件中本地dtd 网络dtd 内部dtd 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE students [ <!ELEMENT students (student +) > <!ELEMENT student (name ,age ,sex )> <!ELEMENT name (#PCDATA )> <!ELEMENT age (#PCDATA )> <!ELEMENT sex (#PCDATA )> <!ATTLIST student number ID #REQUIRED > ]> <students > <student number ="s001" > <name > 胡列娜</name > <age > 22</age > <sex > 女</sex > </student > <student number ="s002" > <name > 水冰儿</name > <age > 17</age > <sex > 女</sex > </student > </students >
外部dtd 如果是本地dtd,这样引用
1 <!DOCTYPE 根标签名 SYSTEM "dtd文件位置" >
如果是网络dtd,这样引用
1 <!DOCTYPE 根标签名 PUBLIC "dtd文件名字" "dtd文件位置的完整URL" >
student.dtd
1 2 3 4 5 6 <!ELEMENT students (student+) > <!ELEMENT student (name,age,sex)> <!ELEMENT name (#PCDATA)> <!ELEMENT age (#PCDATA)> <!ELEMENT sex (#PCDATA)> <!ATTLIST student number ID #REQUIRED>
相应的xml
1 2 3 4 5 6 7 8 9 10 11 12 13 14 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE students SYSTEM "student.dtd" > <students > <student number ="s001" > <name > 胡列娜</name > <age > 22</age > <sex > 女</sex > </student > <student number ="s002" > <name > 水冰儿</name > <age > 17</age > <sex > 女</sex > </student > </students >
Schema student.xsd
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 <?xml version="1.0"?> <xsd:schema xmlns ="http://www.itcast.cn/xml" xmlns:xsd ="http://www.w3.org/2001/XMLSchema" targetNamespace ="http://www.itcast.cn/xml" elementFormDefault ="qualified" > <xsd:element name ="students" type ="studentsType" /> <xsd:complexType name ="studentsType" > <xsd:sequence > <xsd:element name ="student" type ="studentType" minOccurs ="0" maxOccurs ="unbounded" /> </xsd:sequence > </xsd:complexType > <xsd:complexType name ="studentType" > <xsd:sequence > <xsd:element name ="name" type ="xsd:string" /> <xsd:element name ="age" type ="ageType" /> <xsd:element name ="sex" type ="sexType" /> </xsd:sequence > <xsd:attribute name ="number" type ="numberType" use ="required" /> </xsd:complexType > <xsd:simpleType name ="sexType" > <xsd:restriction base ="xsd:string" > <xsd:enumeration value ="male" /> <xsd:enumeration value ="female" /> </xsd:restriction > </xsd:simpleType > <xsd:simpleType name ="ageType" > <xsd:restriction base ="xsd:integer" > <xsd:minInclusive value ="0" /> <xsd:maxInclusive value ="256" /> </xsd:restriction > </xsd:simpleType > <xsd:simpleType name ="numberType" > <xsd:restriction base ="xsd:string" > <xsd:pattern value ="douluo_\d{4}" /> </xsd:restriction > </xsd:simpleType > </xsd:schema >
相应的xml
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 <?xml version="1.0" encoding="UTF-8" ?> <students xmlns:xsi ="http://www.w3.org/2001/XMLSchema-instance" xmlns ="http://www.itcast.cn/xml" xsi:schemaLocation ="http://www.itcast.cn/xml student.xsd" > <student number ="douluo_0001" > <name > 胡列娜</name > <age > 22</age > <sex > female</sex > </student > <student number ="douluo_0002" > <name > 水冰儿</name > <age > 17</age > <sex > female</sex > </student > </students >
以后会碰到的高级一点的写法,先举个例子。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 <?xml version="1.0" encoding="UTF-8"?> <beans xmlns ="http://www.springframework.org/schema/beans" xmlns:xsi ="http://www.w3.org/2001/XMLSchema-instance" xmlns:context ="http://www.springframework.org/schema/context" xmlns:mvc ="http://www.springframework.org/schema/mvc" xsi:schemaLocation =" http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context.xsd http://www.springframework.org/schema/mvc http://www.springframework.org/schema/mvc/spring-mvc.xsd" > <context:annotation-config /> <context:component-scan base-package ="cn.cisol.mvcdemo" > <context:include-filter type ="annotation" expression ="org.springframework.stereotype.Controller" /> </context:component-scan > <mvc:annotation-driven /> <mvc:resources mapping ="/resources/**" location ="/resources/" /> <bean class ="org.springframework.web.servlet.view.ContentNegotiatingViewResolver" > <property name ="order" value ="1" /> <property name ="mediaTypes" > <map > <entry key ="json" value ="application/json" /> <entry key ="xml" value ="application/xml" /> <entry key ="htm" value ="text/html" /> </map > </property > <property name ="defaultViews" > <list > <bean class ="org.springframework.web.servlet.view.json.MappingJackson2JsonView" > </bean > </list > </property > <property name ="ignoreAcceptHeader" value ="true" /> </bean > <bean class ="org.springframework.web.servlet.view.InternalResourceViewResolver" > <property name ="viewClass" value ="org.springframework.web.servlet.view.JstlView" /> <property name ="prefix" value ="/WEB-INF/jsps/" /> <property name ="suffix" value =".jsp" /> </bean > <bean id ="multipartResolver" class ="org.springframework.web.multipart.commons.CommonsMultipartResolver" > <property name ="maxUploadSize" value ="209715200" /> <property name ="defaultEncoding" value ="UTF-8" /> <property name ="resolveLazily" value ="true" /> </bean > </beans >
三、XML解析 解析:操作xml文档,将文档中的数据读取到内存中
操作xml文档
解析(读取):将文档中的数据读取到内存中 写入:将内存中的数据保存到xml文档中,持久化地存储 3.1 解析xml的思想 DOM:将标记语言文档一次性加载进内存,在内存中形成一个DOM树优点:操作方便,可以对文档进行CRUD的所有操作 缺点:占内存 SAX:逐行读取,然后释放。基于事件驱动优点:不占内存。像现在手机中,大多使用SAX思想 思想:只能读取,不能增删改 在服务器端,一般使用dom思想。在移动端,一般使用sax思想
3.2 xml的常见的解析器 JAXP:sun公司提供的解析器,支持dom和sax两种思想。效率很低 DOM4J:一款非常优秀的解析器 Jsoup:jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 PULL:Android操作系统内置的解析器,sax思想 3.3 Jsoup的使用 步骤
导入jar包 获取Document对象 获取对应的标签Element对象 获取数据 快速上手
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 public class Demo01Jsoup { public static void main (String[] args) throws IOException { String path=Demo01Jsoup.class.getClassLoader().getResource("student.xml").getPath(); Document dom=Jsoup.parse(new File(path),"utf-8" ); Elements ele=dom.getElementsByTag("name" ); System.out.println(ele.size()); Element e=ele.get(0 ); System.out.println(e.text()); } }
对象的使用
Jsoup:工具类,可以解析html和xml文档,返回document
parse(File in, String charsetName):解析xml或者html parse(String html):解析xml或者html的字符串 parse(URL url, int timeoutMillis):通过网络路径获取指定的html或xml的文档对象 Document:文档对象。代表内存中的dom树
getElementById(String id):根据id属性值获取唯一的Element对象
getElementsByTag(String tagName):根据标签名称获取元素对象集合
getElementsByAttribute(String skey):根据属性名称获取元素对象集合
getElementsByAttributeValue(String skey,String value):根据属性和属性值获取元素对象集合
Elements:元素Element对象的集合。可以当做ArrayList<Element>
来使用
Element:元素对象
getElementById(String id):根据id属性值获取唯一的Element对象
getElementsByTag(String tagName):根据标签名称获取元素对象集合
getElementsByAttribute(String skey):根据属性名称获取元素对象集合
getElementsByAttributeValue(String skey,String value):根据属性和属性值获取元素对象集合
attr(String skey):根据属性名称获取属性值
text():获取文本内容
html():获取标签体的所有内容,包括字标签的字符串内容
Node:节点对象。内容太多了,自己看文档
快捷方式使用
selector:选择器 XPath:XPath 是一门在 XML 文档中查找信息的语言。需要JsoupXpath.jar 以上内容,下载doc.jar,都能找到详细使用说明,不赘述。
提到jsoup,老是下意识的想到json,jsoup是java的html解析器。
下面列举几个常见的json的java解析器
jsonlib:官方出品 gson:谷歌 fastjson:阿里巴巴 jackson:springMVC框架内置的json解析器