Ontológie
Tomáš Potok, Tomas.Potok@st.fmph.uniba.sk
Verzia 1.0
Obsah:
XML a sémantika
konceptualizácia (conceptualization)
ontológia (ontology)
použitie ontológií a semantic web
existujúce projekty
existujúce ontológie
editory ontológií
links
XML a sémantika
XML sa dnes považuje za najlepší prostriedok na výmenu informácií
na prvý pohľad špecifikuje sémantiku, napr. dovoľuje definovať tagy ako <AUTHOR>, ale z pohľadu stroja má tag rovnaký význam ako napríklad <H1>, t.j. žiadny.
počítač nevie, čo je autor, a že je napríklad zviazaný s pojmom osoba
pre potreby napr. e-commerce je potrebná čo najkompletnejšia informácia
o riešenie sa snažia napr. ebXML, alebo MetaData coalition, ktoré majú za cieľ zvýšiť interoperabilitu medzi rôznymi stranami
toto vždy neúprosne vedie k nutnosti existencie spoločných vedomostí
flexibilita aplikácií rastie, ak tieto vedomosti nie sú zaznamenané len ako „ploché“ množiny pojmov, ale majú definované aj vzájomné vzťahy
aj DTD sa dá považovať za jednoduchú ontológiu, ale práve tu vzťahy nie sú reprezentované, DTD proste nie je dostatočne expresívny jazyk
konceptualizácia (conceptualization)
je základom formálne reprezentovaných znalostí
objekty, koncepty a iné objekty existujúce v nejakej oblasti (doméne) a ich vzťahy
je to abstraktný, zjednodušený pohľad na svet, ktorý potrebujeme reprezentovať na nejaký účel
ontológia (ontology)
je to široký a dávno používaný pojem, vo filozofii, AI, moderne v XML
je formalizáciou konceptualizácie
poskytuje vedomosti o nejakej doméne
je to spoločný slovník na základe dohodnutého významu, umožňuje rôznym agentom, či už strojom, ľuďom, databázam, či aplikáciám pracovať so spoločným jazykom
- býva špecifikovaná v nejakom jazyku založenom na logike, takže je možné detailné, exaktné a konzistentné rozlišovanie medzi triedami, vlastnosťami a reláciami
mnohé ontologické nástroje potom zvládajú automatické dokazovanie a odvodzovanie
často sa stotožňuje s taxonomickými hierarchiami tried a reláciou všeobecnosti - „yahoo radenie“
- nemusí byť ale definovaná len v tradičnom logickom zmysle, vo všeobecnosti iba potrebujeme špecifikovať axiómy, ktoré dostatočne ohraničia (constrain) definované termíny
- viacero definícií:
ontology is a
formal,
- strojovo spracovateľný
explicit specification of a
– koncepty, vlastnosti, relácie, funkcie, constraints, axiómy
shared – dohodnuté vedomosti
conceptualization – abstraktný model fenoménu v reálnom svete
Ontológia je hierarchicky štruktúrovaná množina faktov použitých na opísanie domény, ktorá sa dá použiť ako základná kostra pre KB
môžu sa vytvárať ručne, ale existujú aj automatické systémy generujúce ontológie z textov
obsahuje koncepty organizované v taxonómiách, ďalej relácie, funkcie, inštancie, axiómy, constrainty, framy
hlavné relácie medzi triedami, alebo inštanciami
- subclass-of
- subclass-partition
- exhaustive-subclass-partition
- instance-of
na ich špecifikáciu sa používa viacero jazykov, všetky sú FOL-based
keďže sa už XML na výmenu informácií široko používa, ukázalo sa ako prínosné vybudovať formát pre reprezentáciu ontológií založený na XML, takže vznikli:
SHOE, Ontology Exchange Language (XOL), Ontology Markup Language (OML and CKML), DARPA Agent Markup Language (DAML), ale hlavne
- Resource Description Framework Schema Language (RDF/RDFS)
- vyvíjaný W3C
- široko používaný štandard, predchodca ontológií
- navrhnutý na zaznamenávanie vzťahov medzi objektami pomocou pomenovaných vlastností (attribute-value pairs)
- podobá sa na entitno-relačný diagram
- nedokáže zaznamenať vzťahy medzi vlastnosťami, alebo ich náväznosť na iné zdroje
- používa sa napríklad v knihovníctve napr. na zápis atribútov objektu kniha – autor, jazyk, ...
- OWL (Ontology Web Language)
- vyvíjaný W3C, v štádiu working draft v októbri 2002
- umožňuje jednoduchý zápis ontológie
- možnosť rozširovať už exis
tujúce ontológie
- umožňuje vývoj ontológií v čase
- v prípade rôznej interpretácie nejakej oblasti poskytuje nástroje na „mapovanie“ rôznych ontológií navzájom
- umožňuje detekciu nekonzistencií – rozporov v rôznych ontológiách
- hľadá rovnováhu medzi expresívnosťou jazyka a použiteľnosťou pri odvodzovaní
- internacionalizácia – možnosť mapovať rôzne „kultúrne“ pohľady
- OIL (Ontology Inference Layer, Ontology Interchange Language)
- rozšírenie RDF na báze XML
použitie ontológií a semantic web
presnejšie prehľadávanie webu, inteligentní softwaroví agenti, knowledge management, podpora rozhodovania, rozpoznávanie prirodzeného jazyka a reči, inteligentné databázy, e-commerce, sémantické gatewaye medzi DB schémami
semantic web je vízia budúcnosti webu, kde je k informácii pridaný explicitný význam, čo umožní strojom automaticky integrovať zdroje a pracovať s informáciou uloženou na webe
email prioritizing, routing, summarization, and annotating
- large scale internetworked information spaces will be a prominent, even determining, feature of most businesses, governmental and personal informational activity in the future.
- Standardisation of business models, processes, and knowledge architecture is critical to achieving the promised return on investment (RoI) from Internet commerce.
- The main barrier to electronic commerce lies in the need for applications to meaningfully share information, not in the reliability or security of the Internet. This is because of the variety of enterprise and e-commerce systems deployed by businesses and the way these systems are variously configured and used.
- Interoperability problems are particularly acute when a large number of trading partners attempt to agree and define the standards for interoperation, yet this is precisely the condition in which RoI can be maximised.
existujúce projekty
Cyc a OpenCyc
- pokus o vytvorenie common-sense vedomostí, od 1984, Doug Lenat
- gone commercial - Cycorp
- Cyc KB – ontológia organizovaná do mikro-teórií
- viac ako milión ručne vložených konceptov, napr. Cyc vie, že stromy väčšinou rastú vonku, že ak ľudia zomrú, prestanú nakupovať, alebo že poháre plné tekutiny sa majú nosiť správnou stranou hore
- Cyc má potenciál napríklad zareagovať na otázku „obrázky silných, odvážnych ľudí“ obrázkom, ktorého popis znie „muž lezúci na útes“
- vie napríklad upozorniť, ak sa v spreadsheete mylne spočítava ročný a hodinový zárobok
- používa CycL reprezentačný jazyk a inferenčný stroj
- FOL
- rozšírenia o default reasoning, equality, skolemization, second-order features
- používa circumscription
- používa closed world assumption
používa sa na riešenie rozporov medzi heterogénnymi databázami, data mining, natural language processing
vie rozlíšiť medzi:
- Fred saw the plane flying over Zurich.
- Fred saw the mountains flying over Zurich.
CycSecure
- network scanner, ktorý dedukuje, ako by mohla byť sieť napadnutá
CycAnswers
- bude vedieť odpovedať na otázky klientov a čerpať pri tom z detailnej a relevantnej bázy poznatkov o firme
OntoPrise
- OntoEdit
- SemanticMiner
- business zameranie, dokáže indexovať a vyhľadávať firemné informácie z klasických aj sémantických zdrojov, aj ich kombinácie
- OntoBroker
- engine v pozadí
- is a Java based main-memory deductive database engine and query interface. It processes F-Logic statements – a subset of First Order Logic. Its declarative semantics (well-founded semantics) guarantees, that results are independent of the sequence of the rules and the sequence of the statements within the rules. F-Logic allows to infer about facts, the attribute values and about the ontology itself, e.g. subclass relationship or available attributes of a concept.
- serves as semantic middleware platform that easily integrates heterogeneous data sources and therefore builds the unique interface to mission critical information.
WordNet
- podnet bol syntaktická analýza textu
SENSUS
- 70,000 uzlová taxonómia, framework do ktorého sa dajú integrovať dodatočné vedomosti
- je rozšírením a reorganizáciou WordNetu
KA2 initiative
- vytvorenie ontológie spolu s anotáciou web stránok
- inteligentný webcrawler
existujúce ontológie
veľa rôznych z rôznych špecifických oblastí
problémom je, že každý je väčšinou vo vlastnom špecifikačnom jazyku
Ontolingua project
- celá knižnica ontológií z rôznych oblastí
Generalized Upper Model
EngMath
SWRC - Semantic Web Research Community Ontology
- The SWRC ontology models the semantic web research community (its researchers, topics, publications, tools, etc. and relations between them). This ontology will form the basis to annotate documents in order to enable semantic access to these documents.
- 55 concepts, 72 relations, 5 axioms
ProPer - Human Resource Ontology for Skillmanagement
KA2 - Knowledge Acquisition Community Ontology
- (KA)2 aims at "intelligent" knowledge retrieval from the Web and automatic derivation of "new" knowledge. In other words, it aims at knowledge-based reasoning on the Web, as opposed to the more usual information retrieval. Another objective of the initiative concerns a distributive ontological engineering process.
KAON
- is an open-source ontology management infrastructure targeted for business applications. It includes a comprehensive tool suite allowing easy ontology creation and management, as well as building ontology-based applications. An important focus of KAON is on integrating traditional technologies for ontology management and application with those used in business applications, such as relational databases.
IEEE Standard Upper Ontology (SUO)
- This standard will specify the semantics of a general-purpose upper level ontology. This will be limited to the upper level, which provides definition for general-purpose terms and provides a structure for compliant lower level domain ontologies. It is estimated to contain between 1000 and 2500 terms plus roughly ten definitional statements for each term. Is intended to provide the foundation for ontologies of much larger size and more specific scope
editory ontológií
Protégé
- is a graphical ontology-editing and knowledge-acquisition environment. Its component-based architecture enables system builders to add new functionality to it by creating appropriate plugins. Protégé-2000 supports RDF-Schema and OIL as its output formats and can be readily extended to support other Semantic Web languages. Protégé-2000 is written in Java and is available under the open-source Mozilla Public License
WebOnto
- zdieľanie vytvárania ontológie cez web
OilEd
OntoEdit from OntoPrise
- Similar to software engineering our development of ontologies is divided into different phases: a requirements specification phase, a refinement phase, and an evaluation phase. Our ontology engineering environment OntoEdit™ supports each of these phases by specialized tools integrated in. OntoEdit™ provides means to edit ontologies in an interactive way either in a forms based interface or within a graph based visualisation.
links
www.semanticweb.org
www.ontoweb.org
www.ontoprise.de