PHP에서 거대한 XML 파일 구문 분석하기

DMOZ 콘텐츠 / 구조체 XML 파일을 MySQL로 구문 분석하려고하지만 기존의 모든 스크립트는 매우 오래되었고 잘 작동하지 않습니다. 파싱을 위해 PHP에서 큰 (+ 1GB) XML 파일을 열려면 어떻게해야합니까?

해결법

==============================

1.대용량 파일을 처리하는 데 정말 적합한 두 가지 PHP API 만 있습니다. 첫 번째는 이전 expat API이고 두 번째는 더 새로운 XMLreader 함수입니다. 이 apis는 전체 트리를 메모리로로드하는 대신 (간단한 xml 및 DOM과 같은) 연속 스트림을 읽습니다.

대용량 파일을 처리하는 데 정말 적합한 두 가지 PHP API 만 있습니다. 첫 번째는 이전 expat API이고 두 번째는 더 새로운 XMLreader 함수입니다. 이 apis는 전체 트리를 메모리로로드하는 대신 (간단한 xml 및 DOM과 같은) 연속 스트림을 읽습니다.

예를 들어, DMOZ 카탈로그의 부분 구문 분석기를 살펴볼 수 있습니다.

<?php

class SimpleDMOZParser
{
    protected $_stack = array();
    protected $_file = "";
    protected $_parser = null;

    protected $_currentId = "";
    protected $_current = "";

    public function __construct($file)
    {
        $this->_file = $file;

        $this->_parser = xml_parser_create("UTF-8");
        xml_set_object($this->_parser, $this);
        xml_set_element_handler($this->_parser, "startTag", "endTag");
    }

    public function startTag($parser, $name, $attribs)
    {
        array_push($this->_stack, $this->_current);

        if ($name == "TOPIC" && count($attribs)) {
            $this->_currentId = $attribs["R:ID"];
        }

        if ($name == "LINK" && strpos($this->_currentId, "Top/Home/Consumer_Information/Electronics/") === 0) {
            echo $attribs["R:RESOURCE"] . "\n";
        }

        $this->_current = $name;
    }

    public function endTag($parser, $name)
    {
        $this->_current = array_pop($this->_stack);
    }

    public function parse()
    {
        $fh = fopen($this->_file, "r");
        if (!$fh) {
            die("Epic fail!\n");
        }

        while (!feof($fh)) {
            $data = fread($fh, 4096);
            xml_parse($this->_parser, $data, feof($fh));
        }
    }
}

$parser = new SimpleDMOZParser("content.rdf.u8");
$parser->parse();

==============================
2.이것은 PHP에서 대용량 XML을 처리하는 가장 좋은 방법과 아주 비슷하지만, DMOZ 카탈로그 구문 분석의 특정 문제를 해결하는 매우 구체적인 답변을 제공합니다. 그러나 이것은 대용량 XML의 경우 일반적으로 좋은 Google 히트이기 때문에 다른 질문에서도 대답을 다시 게시 할 것입니다.

이것은 PHP에서 대용량 XML을 처리하는 가장 좋은 방법과 아주 비슷하지만, DMOZ 카탈로그 구문 분석의 특정 문제를 해결하는 매우 구체적인 답변을 제공합니다. 그러나 이것은 대용량 XML의 경우 일반적으로 좋은 Google 히트이기 때문에 다른 질문에서도 대답을 다시 게시 할 것입니다.

내 걸릴 :

https://github.com/prewk/XmlStreamer

파일을 스트리밍하는 동안 모든 자식을 XML 루트 요소로 추출하는 간단한 클래스입니다. pubmed.com의 108 MB XML 파일에서 테스트되었습니다.
```
class SimpleXmlStreamer extends XmlStreamer {
    public function processNode($xmlString, $elementName, $nodeIndex) {
        $xml = simplexml_load_string($xmlString);

        // Do something with your SimpleXML object

        return true;
    }
}

$streamer = new SimpleXmlStreamer("myLargeXmlFile.xml");
$streamer->parse();
```

==============================

3.최근에 꽤 큰 XML 문서를 파싱해야했기 때문에 한 번에 하나의 요소를 읽는 방법이 필요했습니다.

최근에 꽤 큰 XML 문서를 파싱해야했기 때문에 한 번에 하나의 요소를 읽는 방법이 필요했습니다.

다음 파일이있는 경우 complex-test.xml :

<?xml version="1.0" encoding="UTF-8"?>
<Complex>
  <Object>
    <Title>Title 1</Title>
    <Name>It's name goes here</Name>
    <ObjectData>
      <Info1></Info1>
      <Info2></Info2>
      <Info3></Info3>
      <Info4></Info4>
    </ObjectData>
    <Date></Date>
  </Object>
  <Object></Object>
  <Object>
    <AnotherObject></AnotherObject>
    <Data></Data>
  </Object>
  <Object></Object>
  <Object></Object>
</Complex>

그리고

PHP 문자열의 유니 코드 문자 (0)	2018.09.14
SimpleXMLElement 객체에서 값 가져 오기 (0)	2018.09.14
여러 키로 다차원 배열 정렬 (0)	2018.09.14
문자열을 Date 및 DateTime으로 변환 (0)	2018.09.14
PHP로 작성된 코드의 속도는 어떻게 측정 할 수 있습니까? (0)	2018.09.14

복붙노트

PHP에서 거대한 XML 파일 구문 분석하기

PHP에서 거대한 XML 파일 구문 분석하기

해결법

3.최근에 꽤 큰 XML 문서를 파싱해야했기 때문에 한 번에 하나의 요소를 읽는 방법이 필요했습니다.

4.DOM 기반 파싱이 아닌 SAX 기반 파서를 사용하는 것이 좋습니다.

5.이것은 훌륭한 해결책은 아니지만 단지 다른 옵션을 거기에 버리는 것입니다.

'PHP' 카테고리의 다른 글

티스토리툴바