Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Tietojen siirtäminen PDF-tiedoston laskentataulukosta Microsoft Excel -taulukkoon on aina ”hauskaa”. Varsinkin jos sinulla ei ole kallista tunnistusohjelmistoa, kuten FineReader tai jotain vastaavaa. Suora kopiointi ei yleensä johda mihinkään hyvään, koska. Kun kopioidut tiedot on liitetty arkille, ne todennäköisesti "tarrautuvat yhteen" yhdeksi sarakkeeksi. Joten ne on sitten erotettava huolellisesti työkalun avulla Teksti sarakkeittain välilehdeltä Päiväys (Data – teksti sarakkeisiin).

Ja tietysti kopiointi on mahdollista vain niille PDF-tiedostoille, joissa on tekstikerros, eli juuri paperilta PDF-muotoon skannatun asiakirjan kanssa, tämä ei periaatteessa toimi.

Mutta se ei todellakaan ole niin surullista 🙂

Jos sinulla on Office 2013 tai 2016, niin muutamassa minuutissa, ilman lisäohjelmia, on täysin mahdollista siirtää tietoja PDF-tiedostosta Microsoft Exceliin. Word ja Power Query auttavat meitä tässä.

Otetaan esimerkiksi tämä PDF-raportti, jossa on joukko tekstiä, kaavoja ja taulukoita Euroopan talouskomission verkkosivustolta:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

… ja yritä vetää se pois Excelissä, sano ensimmäinen taulukko:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Mennään!

Vaihe 1. Avaa PDF Wordissa

Jostain syystä harvat tietävät, mutta vuodesta 2013 lähtien Microsoft Word on oppinut avaamaan ja tunnistamaan PDF-tiedostoja (jopa skannatut, eli ilman tekstikerrosta!). Tämä tehdään täysin tavallisella tavalla: avaa Word, napsauta Tiedosto – Avaa (Tiedosto — Avaa) ja määritä PDF-muoto ikkunan oikeassa alakulmassa olevasta avattavasta luettelosta.

Valitse sitten tarvitsemamme PDF-tiedosto ja napsauta avoin (Avata). Word kertoo meille, että se aikoo suorittaa OCR:n tässä asiakirjassa tekstiä varten:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Olemme samaa mieltä ja muutaman sekunnin kuluttua näemme PDF-tiedostomme olevan avoinna muokattavaksi jo Wordissa:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Tietysti muotoilu, tyylit, fontit, ylä- ja alatunnisteet jne. lentävät osittain pois dokumentista, mutta tämä ei ole meille tärkeää - tarvitsemme vain tietoja taulukoista. Periaatteessa tässä vaiheessa on jo houkuttelevaa kopioida taulukko tunnistetusta asiakirjasta Wordiin ja liittää se Exceliin. Joskus se toimii, mutta useammin se johtaa kaikenlaisiin tietojen vääristymiin – esimerkiksi numerot voivat muuttua päivämääriksi tai jäädä tekstiksi, kuten meidän tapauksessamme, koska. PDF käyttää muita kuin erottimia:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Joten älkäämme leikkaako kulmia, vaan teemme kaikesta hieman monimutkaisempaa, mutta oikein.

Vaihe 2: Tallenna asiakirja Web-sivuksi

Jotta vastaanotettu data ladataan Exceliin (Power Queryn kautta), Wordissa oleva asiakirjamme on tallennettava verkkosivun muotoon – tämä muoto on tässä tapauksessa eräänlainen yhteinen nimittäjä Wordin ja Excelin välillä.

Voit tehdä tämän siirtymällä valikkoon Tiedosto – Tallenna nimellä (Tiedosto - Tallenna nimellä) tai paina näppäintä F12 Valitse tiedostotyyppi näppäimistöltä ja avautuvasta ikkunasta Verkkosivu yhdessä tiedostossa (Verkkosivu — yksittäinen tiedosto):

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Tallennuksen jälkeen sinun pitäisi saada tiedosto mhtml-tunnisteella (jos näet tiedostopäätteet Explorerissa).

Vaihe 3. Tiedoston lataaminen Exceliin Power Queryn kautta

Voit avata luodun MHTML-tiedoston suoraan Excelissä, mutta sitten saamme ensinnäkin PDF-tiedoston koko sisällön kerralla tekstin ja joukon tarpeettomia taulukoita, ja toiseksi menetämme jälleen tietoja virheellisten tietojen vuoksi. erottimet. Siksi tuomme Exceliin Power Query -apuohjelman kautta. Tämä on täysin ilmainen lisäosa, jolla voit ladata tietoja Exceliin melkein mistä tahansa lähteestä (tiedostot, kansiot, tietokannat, ERP-järjestelmät) ja sitten muuntaa vastaanotetut tiedot kaikin mahdollisin tavoin antamalla sille halutun muodon.

Jos sinulla on Excel 2010-2013, voit ladata Power Queryn viralliselta Microsoftin verkkosivustolta - asennuksen jälkeen näet välilehden Tehokysely. Jos sinulla on Excel 2016 tai uudempi, sinun ei tarvitse ladata mitään – kaikki toiminnot on jo oletusarvoisesti sisäänrakennettu Exceliin ja sijaitsevat välilehdellä Päiväys (Päivämäärä) ryhmässä Lataa ja muunna (Hanki ja muunna).

Joten siirrymme joko välilehdelle Päiväys, tai välilehdellä Tehokysely ja valitse joukkue Saadaksesi dataa or Luo kysely – tiedostosta – XML:stä. Jos haluat nähdä XML-tiedostojen lisäksi, muuta ikkunan oikeassa alakulmassa olevan pudotusvalikon suodattimet muotoon Kaikki tiedostot (Kaikki tiedostot) ja määritä MHTML-tiedostomme:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Huomaa, että tuonti ei onnistu, koska. Power Query odottaa meiltä XML:ää, mutta meillä on itse asiassa HTML-muoto. Siksi seuraavassa näkyviin tulevassa ikkunassa sinun on napsautettava hiiren kakkospainikkeella tiedostoa, jota Power Query ei ymmärrä, ja määritettävä sen muoto:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Sen jälkeen tiedosto tunnistetaan oikein ja näemme luettelon kaikista sen sisältämistä taulukoista:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Voit tarkastella taulukoiden sisältöä napsauttamalla hiiren vasenta painiketta Data-sarakkeen solujen valkoisella taustalla (ei sanassa Taulukko!).

Kun haluttu taulukko on määritetty, napsauta vihreää sanaa Pöytä – ja sinä "pudotat" sen sisältöön:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

Sen sisällön "kampaamiseksi" on vielä tehtävä muutama yksinkertainen vaihe, nimittäin:

  1. poista tarpeettomat sarakkeet (klikkaa hiiren oikealla painikkeella sarakkeen otsikkoa - poista)
  2. korvaa pisteet pilkuilla (valitse sarakkeet, napsauta hiiren kakkospainikkeella - Korvaa arvoja)
  3. poista yhtäläisyysmerkit otsikosta (valitse sarakkeet, napsauta hiiren kakkospainikkeella - Korvaa arvoja)
  4. poista ylärivi (Koti – Poista rivit – Poista ylimmät rivit)
  5. poista tyhjät rivit (Etusivu – Poista rivejä – Poista tyhjät rivit)
  6. nosta ensimmäinen rivi taulukon otsikkoon (Etusivu – Käytä ensimmäistä riviä otsikoina)
  7. suodattaa tarpeettomat tiedot suodattimen avulla

Kun taulukko on saatettu normaaliin muotoonsa, se voidaan purkaa arkille komennolla sulje ja lataa (Sulje ja lataa) on Pääasiallinen -välilehti. Ja saamme sellaisen kauneuden, jonka kanssa voimme jo työskennellä:

Tuo tiedot PDF-tiedostosta Exceliin Power Queryn avulla

  • Sarakkeen muuntaminen taulukoksi Power Queryllä
  • Tarttuvan tekstin jakaminen sarakkeisiin

Jätä vastaus